【观点】探索性研究是否需要多重比较矫正?

一、两种研究类型:探索性研究和确证性研究

探索性研究(Exploratory research)

核心目的:发现规律、生成假设
特点是:

  • 没有(或不强调)预先明确的主要假设/主要终点

  • 往往会同时看很多变量/结局/脑区/通道/频段/亚组;

  • 结论通常表述为“线索、候选机制、可能关联”,需要后续研究验证。

例子 1(卒中康复 + fNIRS)
你收集卒中患者静息态 fNIRS,多指标(连接强度、效率、模块度等)+ 多ROI(例如 30–60 个通道/脑区),想看看哪些网络指标与 ARAT、FMA 等功能量表最相关。
→ 这通常是探索性:你在“地图式”扫描哪些脑网络特征值得重点关注,用来提出后续“哪些通路可能是关键靶点”的假设。

例子 2(临床数据挖掘)
回顾性队列里有几十个实验室指标与影像特征,你想找出哪些因素与 3 个月预后相关,从而形成一个候选预测模型。
→ 探索性:目标是筛选变量、构建候选模型,下一步需要外部验证或前瞻性确认。

确证性研究(Confirmatory research)

核心目的:检验并证明(或否定)一个预先提出的假设
特点是:

  • 事先写清楚:主要假设、主要终点、主要比较、统计方法、显著性阈值

  • 常见于 RCT、注册研究、关键机制验证实验;

  • 结论可以更“决策型”(例如“有效/无效”“优于对照”“达到主要终点”)。

例子 1(随机对照试验)
在方案里预先定义:卒中患者接受某种 TMS 方案 vs 假刺激,主要终点为 4 周后 FMA-UE 改变量;主要假设是 TMS 组改善幅度更大;并预设统计检验与 α=0.05。
→ 这是确证性:你不是“到处找”,而是围绕预先假设去“证明”。

例子 2(机制验证实验)
你预先假设“NMDA 受体拮抗剂会削弱 TMS 的疗效”,动物实验里设定对照、TMS、TMS+拮抗剂三组,主要结局是神经功能评分/梗死体积/特定突触标志物。
→ 这是确证性:目标是验证一个明确的因果机制链条。

二、多重比较矫正的争议

无争议:确证性研究有预先假设,为了证明假设——必须做多重比较矫正。

有争议:探索性研究是否需要多重比较矫正。

 

一些经典观点认为:探索性分析的价值在于提出线索与假设,机械地做 Bonferroni 可能过于保守、降低发现真实信号的能力。Perneger BMJ 讨论了 Bonferroni 的局限性与可能带来的误导;Rothman 则更直接提出不必为多重比较做调整的立场(常被视作反对例行矫正的代表文献)。但注意:这些观点的前提通常不是照常报一堆未校正 p<0.05 然后下确认性结论,而是——把结果定位为探索线索,并在解释与呈现方式上避免盖章式显著

 

对于探索性研究,建议的步骤是:列出所有未经矫正的P在通过矫正的P值上进行标记,如:0.001FDR;并且标准多重比较矫正后的阈值。

 

另外需要注意,当前有的学者十分强调文章的背景部分最后一段要给出明确假设,笔者认为这是不适合的,对于探索性研究特别是影像学研究并不需要一个非常明确的假设,有一个方向或者目的即可。如果在背景部分给出了明确假设,那就必须进行多重比较矫正来证实这一假设。

一些文献

1Bender & Lange, 2001 的实践导向结论(以及它支持探索性不一刀切的依据)

参考文献:

Bender R, Lange S. Adjusting for multiple testing—when and how?[J]. Journal of Clinical Epidemiology, 2001, 54(4): 343–349. doi:10.1016/S0895-4356(00)00314-0.

PubMed

文章的核心论点

多重性(multiplicity)在生物医学/流行病学研究中非常常见,包括数据、假设、分析的多重性;多重检验理论提供了定义并控制合适错误率(error rates的框架,以避免得出错误结论。

在确证性研究(confirmatory studies)中:只要多个检验的结果需要合并成一个最终结论/决策,就需要进行多重比较调整/多重性控制。如果做了多重显著性检验,应当在报告中说明你控制的错误率类型(例如控制哪种 family-wise / per-comparison / 等)。

这些结论背后的论据链

Ø 为什么确证性研究更必须控多重性

确证性研究的特点是:结果要支撑一个单一、明确的科学或临床决策(例如:主要终点是否显著 宣称疗效/改变指南/申报注册)。

当你做了多个检验而又允许只要其中某个显著就算成功来支撑最终结论时,出现至少一个偶然显著从而导致错误结论的风险会系统性上升;因此作者强调:这种合并成最终结论/决策的场景下必须控制多重性。

Ø 为什么作者强调要写清楚控制哪种错误率

多重性控制不是只有一种校正/不校正,关键在于:你的研究要控制的究竟是哪一种 Type I error 概念(例如更严格的 family-wise,或更宽松但适合海量检验的错误率体系)。作者认为需要在报告中交代清楚,否则读者无法判断你所谓显著的含义与决策风险。

这一点在实际写作中对应:在统计分析计划/方法部分明确写出“multiplicity strategy + error rate”

Ø 它如何支持探索性研究不应一概而论必须校正

作者把需要校正的触发条件写得很具体:确证性 + 多个检验要合并为一个最终结论/决策。

因此在探索性研究(hypothesis-generating)里,如果你的目的不是做单一终局决策,而是发现信号/提出假设/筛选候选指标,作者的框架自然导向:关键不是强行一刀切校正,而是把多重检验在研究中的角色讲清楚、并透明说明你是否调整以及控制哪类错误率(避免把探索性 p 值当作确证性证据来下结论)。

2Rothman 1990(直接主张不需要校正

参考文献:

Rothman K J. No adjustments are needed for multiple comparisons[J]. Epidemiology, 1990, 1(1): 43–46.

观点与论据:

例行多重校正为了降低 Type I error,但会增加 Type II error,从而漏掉真实关联;作者主张不做常规校正更利于解释与科学发现。

作者批评把“chance”当作一切现象的一阶解释(所谓 universal null 的思路),并强调科学探索不应因害怕犯错而牺牲发现潜在重要结果的机会。

3Perneger 1998(重点批判机械 Bonferroni”

参考文献:

Perneger T V. What’s wrong with Bonferroni adjustments[J]. BMJ, 1998, 316(7139): 1236–1238. doi:10.1136/bmj.316.7139.1236.

Juniata College

观点与论据:

Bonferroni 针对的是所有零假设同时为真的总体/普遍零假设,但这往往不是研究者真正关心的问题,因此答对了一个不重要的问题

同一个结果的解释会因为你做了多少其它检验而改变(“defies common sense”),作者认为这是不合理的。

降低 Type I error 必然抬高 Type II error,在医学研究中会把有效治疗误判为无效,造成实质性损失;因此 Bonferroni 不等于更谨慎

更好的做法往往是:清楚描述做了哪些检验、为什么做,而不是机械套校正。

最后注意:支持多重比较矫正更为严谨,如能做,尽量做。

发表回复