【观点】探索性研究是否需要多重比较矫正？

一、两种研究类型：探索性研究和确证性研究

探索性研究（Exploratory research）

核心目的：发现规律、生成假设。
特点是：

没有（或不强调）预先明确的主要假设/主要终点；
往往会同时看很多变量/结局/脑区/通道/频段/亚组；
结论通常表述为“线索、候选机制、可能关联”，需要后续研究验证。

例子 1（卒中康复 + fNIRS）
你收集卒中患者静息态 fNIRS，多指标（连接强度、效率、模块度等）+ 多ROI（例如 30–60 个通道/脑区），想看看哪些网络指标与 ARAT、FMA 等功能量表最相关。
→ 这通常是探索性：你在“地图式”扫描哪些脑网络特征值得重点关注，用来提出后续“哪些通路可能是关键靶点”的假设。

例子 2（临床数据挖掘）
回顾性队列里有几十个实验室指标与影像特征，你想找出哪些因素与 3 个月预后相关，从而形成一个候选预测模型。
→ 探索性：目标是筛选变量、构建候选模型，下一步需要外部验证或前瞻性确认。

确证性研究（Confirmatory research）

核心目的：检验并证明（或否定）一个预先提出的假设。
特点是：

事先写清楚：主要假设、主要终点、主要比较、统计方法、显著性阈值；
常见于 RCT、注册研究、关键机制验证实验；
结论可以更“决策型”（例如“有效/无效”“优于对照”“达到主要终点”）。

例子 1（随机对照试验）
在方案里预先定义：卒中患者接受某种 TMS 方案 vs 假刺激，主要终点为 4 周后 FMA-UE 改变量；主要假设是 TMS 组改善幅度更大；并预设统计检验与 α=0.05。
→ 这是确证性：你不是“到处找”，而是围绕预先假设去“证明”。

例子 2（机制验证实验）
你预先假设“NMDA 受体拮抗剂会削弱 TMS 的疗效”，动物实验里设定对照、TMS、TMS+拮抗剂三组，主要结局是神经功能评分/梗死体积/特定突触标志物。
→ 这是确证性：目标是验证一个明确的因果机制链条。

二、多重比较矫正的争议

无争议：确证性研究有预先假设，为了证明假设——必须做多重比较矫正。

有争议：探索性研究是否需要多重比较矫正。

一些经典观点认为：探索性分析的价值在于提出线索与假设，机械地做 Bonferroni 可能过于保守、降低发现真实信号的能力。Perneger 在 BMJ 讨论了 Bonferroni 的局限性与可能带来的误导；Rothman 则更直接提出“不必为多重比较做调整”的立场（常被视作“反对例行矫正”的代表文献）。但注意：这些观点的前提通常不是“照常报一堆未校正 p<0.05 然后下确认性结论”，而是——把结果定位为“探索线索”，并在解释与呈现方式上避免“盖章式显著”。

对于探索性研究，建议的步骤是：列出所有未经矫正的P值→在通过矫正的P值上进行标记，如:0.001^FDR;并且标准多重比较矫正后的阈值。

另外需要注意，当前有的学者十分强调文章的背景部分最后一段要给出明确假设，笔者认为这是不适合的，对于探索性研究（特别是影像学研究）并不需要一个非常明确的假设，有一个方向或者目的即可。如果在背景部分给出了明确假设，那就必须进行多重比较矫正来证实这一假设。

一些文献

（1）Bender & Lange, 2001 的实践导向结论（以及它支持“探索性不一刀切”的依据）

参考文献：

Bender R, Lange S. Adjusting for multiple testing—when and how?[J]. Journal of Clinical Epidemiology, 2001, 54(4): 343–349. doi:10.1016/S0895-4356(00)00314-0.

PubMed

l 文章的核心论点

多重性（multiplicity）在生物医学/流行病学研究中非常常见，包括“数据、假设、分析”的多重性；多重检验理论提供了‘定义并控制合适错误率（error rates）‘的框架，以避免得出错误结论。

在确证性研究（confirmatory studies）中：只要“多个检验的结果需要合并成一个最终结论/决策”，就需要进行多重比较调整/多重性控制。如果做了多重显著性检验，应当在报告中说明你控制的错误率类型（例如控制哪种 family-wise / per-comparison / 等）。

l 这些结论背后的“论据链”

Ø 为什么确证性研究更“必须控多重性”

确证性研究的特点是：结果要支撑一个单一、明确的科学或临床决策（例如：主要终点是否显著 → 宣称疗效/改变指南/申报注册）。

当你做了多个检验而又允许“只要其中某个显著就算成功”来支撑最终结论时，出现至少一个偶然显著从而导致错误结论的风险会系统性上升；因此作者强调：这种“合并成最终结论/决策”的场景下必须控制多重性。

Ø 为什么作者强调“要写清楚控制哪种错误率”

多重性控制不是只有一种“校正/不校正”，关键在于：你的研究要控制的究竟是哪一种 Type I error 概念（例如更严格的 family-wise，或更宽松但适合海量检验的错误率体系）。作者认为需要在报告中交代清楚，否则读者无法判断你所谓“显著”的含义与决策风险。

这一点在实际写作中对应：在统计分析计划/方法部分明确写出“multiplicity strategy + error rate”。

Ø 它如何支持“探索性研究不应一概而论必须校正”

作者把“需要校正”的触发条件写得很具体：确证性 + 多个检验要合并为一个最终结论/决策。

因此在探索性研究（hypothesis-generating）里，如果你的目的不是做单一终局决策，而是发现信号/提出假设/筛选候选指标，作者的框架自然导向：关键不是强行“一刀切校正”，而是把多重检验在研究中的角色讲清楚、并透明说明你是否调整以及控制哪类错误率（避免把探索性 p 值当作确证性证据来下结论）。

（2）Rothman 1990（直接主张“不需要校正”）

参考文献：

Rothman K J. No adjustments are needed for multiple comparisons[J]. Epidemiology, 1990, 1(1): 43–46.

观点与论据：

例行多重校正为了降低 Type I error，但会增加 Type II error，从而漏掉真实关联；作者主张“不做常规校正”更利于解释与科学发现。

作者批评把“chance”当作一切现象的一阶解释（所谓 universal null 的思路），并强调科学探索不应因害怕犯错而牺牲发现潜在重要结果的机会。

（3）Perneger 1998（重点批判“机械 Bonferroni”）

参考文献：

Perneger T V. What’s wrong with Bonferroni adjustments[J]. BMJ, 1998, 316(7139): 1236–1238. doi:10.1136/bmj.316.7139.1236.

Juniata College

观点与论据：

Bonferroni 针对的是“所有零假设同时为真”的总体/普遍零假设，但这往往不是研究者真正关心的问题，因此“答对了一个不重要的问题”。

同一个结果的解释会因为你做了多少其它检验而改变（“defies common sense”），作者认为这是不合理的。

降低 Type I error 必然抬高 Type II error，在医学研究中会把有效治疗误判为无效，造成实质性损失；因此 Bonferroni 不等于“更谨慎”。

更好的做法往往是：清楚描述做了哪些检验、为什么做，而不是机械套校正。

最后注意：支持多重比较矫正更为严谨，如能做，尽量做。

Post Views: 404

一、两种研究类型：探索性研究和确证性研究

探索性研究（Exploratory research）

确证性研究（Confirmatory research）

二、多重比较矫正的争议

对于探索性研究，建议的步骤是：列出所有未经矫正的P值→在通过矫正的P值上进行标记，如:0.001FDR;并且标准多重比较矫正后的阈值。

你可能也喜欢

【投稿指南-BMJ Open】

【专栏：AI说】符合正态分布的数据，但是比较时因为方差不齐不使用参数检验，这种情况数据表示是用均数±标准差还是用分位数？

【Gretna】报错及其解决方案汇总

发表回复 取消回复

对于探索性研究，建议的步骤是：列出所有未经矫正的P值→在通过矫正的P值上进行标记，如:0.001^FDR;并且标准多重比较矫正后的阈值。

发表回复取消回复