一、统计学显著性和临床显著性简介
目前大多数临床研究及相关论文以结果统计学差异显著为主要目标,并将这一目标作为研究成功的标准。实际上,统计学具有显著性不代表该结果具有临床意义。从统计学意义和临床意义两个维度去分析一个临床研究的结果,可以得到下图,共四个可能结果,即:
- 统计学差异显著+有临床意义:这项研究是成功的,结果不仅有统计学差异,如果应用到临床实践中,可以让患者获益。
- 统计学差异不显著+没有临床意义:这项研究是失败的,组间不仅没有统计学差异,临床上也不能给患者带来受益。
- 统计学差异不显著+有临床意义;两组之间的差异在统计学上不显著,但是其中一组的结果明显比另外一组好。例如,当样本量较小的时候,明显可以观察到两组之间有明显的差异,但是统计学不显著,例如P=0.06。
- 统计学差异不显著+没有临床意义;统计学差异显著,但是这种差异并不能给患者带来太大的获益。实际上,只要组间确实存在差异,哪怕这个差异非常小,在足够大的样本量下总能得到统计学显著性。例如A地区的高血压患者的总体血压比B地区高2mmHg,实际上2mmHg的差异在临床实践中没有那么重要,但是只要你收集足够多的样本量,你就可以得出B地区总体血压比A地区高的结论,但这在临床实践中意义有限,这一结论并不能对临床的治疗方案进行指导。(此部分可结合样本量计算阅读:http://www.rfnirs.com/index.php/2024/05/14/%e6%a0%b7%e6%9c%ac%e9%87%8f%e8%ae%a1%e7%ae%97/)
二、如何判断临床意义
统计学意义可以通过假设检验来判断,那么如何判断临床意义呢?这里需要引入一个概念:最小临床重要差异(Minimal Clinically Important Difference, MCID)
MCID是指一种治疗或干预在患者的临床状态上产生的最小变化,这种变化足够大,能被患者或临床医生视为有临床意义,而不仅仅是统计上的显著性。也就是差异大于MCID才能被认为有临床意义。
CID 的确定没有固定的公式,而是通过多种方法综合评估,通常分为以下两大类:
1. 基于分布的方法(Distribution-based methods): 这些方法基于统计数据,尝试量化测量结果的变化。
(1) 效应量法(Effect Size Approach)。该方法通过标准差来标定差异的大小是否有临床意义。效应量=变化的平均值/标准差。0.2:小效应,意味着变化虽然存在,但临床上不明显。0.5:中等效应,变化在临床上具有一定的意义。0.8:大效应,代表变化具有显著的临床意义。
(2) 标准误差法(Standard Error of Measurement, SEM):SEM 用来量化测量工具中的误差,通过考虑该工具的信度来计算 MCID 的临界值。它基于一个假设,即临床上有意义的变化应该超出测量误差的范围。SEM=标准差*√(1-r).r是测量工具的信度系数。
MCID 的推导:假设变化必须超过一定倍数的 SEM 才能具有临床意义。比如,1倍 SEM 可以被认为是临床意义的最小界限。某些情况下,2倍 SEM 用于确定更显著的变化。
(3) 反应均值法(Responsive Mean Index, RMI):反应均值法是基于对临床试验中反应者和非反应者之间的均值差异来确定 MCID。即,计算那些被认为对治疗有反应的患者的平均变化,并将其作为 MCID 的参考标准。计算方法:治疗组中被认为对治疗有反应者的均值变化,减去那些没有反应者的均值变化。这需要主观判断或使用其他已经被确定MCID的量表来区分。优势:RMI 能够在同一数据集中直接反映不同治疗组的效果差异。
2. 基于锚定的方法(Anchor-based methods): 这种方法通过患者或临床医生的主观反馈,直接与患者对自身症状或功能状态的感知相关联。
这种方法通过与“锚”(anchor)进行比较,锚通常是患者、医生或其他临床指标的主观反馈或评价。基于锚定的方法更加直接地反映了患者或临床医生认为的有意义的变化,因此具有更高的临床相关性,但不够客观。
(1) 患者自我报告(Patient-reported Outcomes, PROs):PROs 通过患者主观反馈,评估他们对治疗效果的感知。这种方法常用的工具包括:全球变化评价量表(Global Rating of Change, GRC):患者根据此量表主观评分自己在治疗前后的变化,通常使用一个从“非常糟糕”到“非常好”的量表(+7:非常大程度的改善;+6:极大程度的改善;+5:显著改善;+4:较大程度的改善;+3:中度改善;+2:轻度改善;+1:轻微改善;0:无变化;-1:轻微恶化;-2:轻度恶化;-3:中度恶化;-4:较大程度的恶化;-5:显著恶化;-6:极大程度的恶化;-7:非常大程度的恶化。如果患者的 GRC 分数为 +3 或更高,可能意味着治疗产生了足够大的临床重要变化)。MCID 通过将患者主观感知的改善(如评分显著提高)与实际数据变化(如功能评分)相关联来确定。优势:直接反映患者的体验和感知。
(2) 临床评估(Clinical Evaluation)
在临床评估中,医生根据患者的症状、功能、体征变化来评估治疗效果。医生可能会根据患者的症状改善、临床功能测试结果或影像学检查,判断治疗是否达到了有意义的临床改善。
优点:依靠专业的临床判断,能很好地捕捉与病理相关的临床变化。
缺点:医生的判断可能受主观影响,且在某些情况下可能与患者自我感知不一致。
(3) 功能性标记物(Functional or Physiological Markers)
使用功能性或生理性的标记物作为“锚”,这些标记物与患者的临床状况或治疗结果密切相关。常见的例子包括:
步行距离:例如,在心肺功能评估中,步行距离作为功能改善的标志,可以通过锚定步行距离的变化来确定 MCID。
疼痛评分:例如,通过锚定患者自我评估的疼痛程度变化,评估临床重要差异。
在实际应用中,MCID 的确定往往结合了两种方法。基于锚定的方法可以确保 MCID 与患者感知的变化或临床医生的判断相符,而基于分布的方法提供了统计学支持,确保变化具有数据上的一致性。两者结合的优点在于,既确保 MCID 具有临床相关性,又能防止测量数据偏离实际意义。
三、如何查找MCID?
自己计算MCID比较复杂和费时,目前常用的康复临床量表都可以查到MCID。
第一种方法是既往文献中有描述MCID值的可以直接引用。
第二种方法是在Shirley Ryan AbilityLab官网(https://www.sralab.org/rehabilitation-measures)上查找。Shirley Ryan AbilityLab 是位于美国芝加哥的一家世界知名的康复医院和研究机构,前身为芝加哥康复研究所(Rehabilitation Institute of Chicago,RIC)。它是全球领先的康复医学中心之一,致力于为患有身体和神经系统功能障碍的患者提供创新性、跨学科的治疗。该网站的官网上提供了常用量表的MCID,可以直接使用。
Shirley Ryan AbilityLab还提供了很多康复相关信息,后续文章会专门介绍。
四、对于量表本身误差的考虑:最小可检测变化(Minimal Detectable Change, MDC)
MDC指测量工具能够检测到的最小的真实变化,而不受测量误差的影响。MDC 表示的是一个具有统计学意义的变化范围,超出这个范围的变化才被认为是实际的变化,而不是由测量误差引起的波动。组间或组内差异应该大于MDC可以证明该差异不是偶然得出的。
MDC 的计算通常基于测量工具的信度(reliability),具体公式为:MDC=1.96*SEM*√2。该结果也可以在Shirley Ryan AbilityLab官网找到。
注:部分内容由人工智能提供。