如何解释无统计学显著性的结果？可以考虑用置信区间（CI）

作者：羊村懒王 | 2024-03-18 21:19:42

踩

比较置信区间推断显著性

很多医学研究的目标是为了确定两种或多种治疗方法中哪一种治疗方法对某个特定的疾病更有效。一项研究的统计学把握度（power），又称检验效能，是指在一定程度上能够检验出具有真正治疗效果的概率，它高度依赖于研究的样本量大小。

当采用回顾性观察性研究设计时，研究人员几乎无法控制样本量的大小，因此也无法控制检验特定治疗效果的能力。当此类研究无法得出具有统计学显著性的结果时，我们就需要考虑一个重要的问题：缺乏统计学显著性到底是由于不同治疗方法之间效果确实没有差异，还是由于研究本身的把握度不足所致。

为了解决这个问题，一些研究人员可能会考虑对已完成的研究进行把握度计算。但是，一旦研究已经完成，再去计算把握度可能就没有太大意义了。因此，对于所有的研究设计，当得出无统计学显著性的结果时，使用置信区间（CI）也许有助于我们对结果进行解释。

2018年，Hung等研究者在《JAMA Surgery》上发表了一项研究结果[1]，针对持续性或复发性甲状腺乳头状癌患者，对比分析了再次手术并接受放射性碘治疗和再次手术但未接受放射性碘治疗两种治疗方法，与肿瘤再次复发时间的相关性[1]。

该回顾性队列研究共纳入了102名患者，分析结果显示两种治疗方法之间的差异并没有达到统计学显著性。

作者进行了检验效能分析，以确定在类似该研究的样本量中，按照80%的检验效能可以检测出的效应值。研究最终得出结论，再次手术并接受放射性碘治疗与无疾病复发生存期显著延长不具有关联性。

研究人员指出，该研究可能并没有足够的把握度来检测出再次手术后接受放射性碘治疗的效果。研究人员在文章中采用了HR及其95% CI来报告肿瘤复发的风险。

置信区间（CI）是什么？

在进行两种治疗方法效果比较的统计分析中，统计学显著性水平通常设置为0.05或5%，如果使用当前的数据进行分析，零假设不会被拒绝，则95% CI将包含所有治疗效果的可能值[2]。

CI可以被认为是一个“相容性区间”，它包含了与当前数据最相容的效应值，当我们将观察到的数据与一系列假设的效应值进行比较时，可以通过得出没有显著性的P值来进行判断[3]。对于所有CI，对应的显著性阈值是100减去置信水平（即CI百分比符号前的数字）。因此，如果使用10%作为显著性阈值，则90% CI的数值与数据最兼容。

在解释无显著性结果时，为什么CI有用？

与其对统计结果采用二元解释，即是或否达到统计学显著性，使用CI可以对治疗组之间没有统计学显著性差异的效果（即阴性结果）进行更加丰富的解释。在很多医学研究中的结果比较中，有一些治疗效果并没有太大的临床意义。例如，血压降低或升高3mmHg，即使结果具有统计学显著性，但是在临床中并没有实际价值。

首先，我们要确定具有临床显著性的最小差值（Minimal clinically important difference, MCID）[4]，研究人员就可以明确不具有临床意义的数值范围，通常对于连续变量，以0为中心，对于OR值或HR值，则以1为中心。如果在分析开始前，根据既往的研究结果来指定MCID，则可以极大地增强CI对研究结果的解释。

对于一个已经预先指定MCID但并没有得出显著性结果的研究，将可能出现3种情况，如下图所示。在此示例中，治疗获益的MCID和治疗有害的MCID的绝对值是相等的，但情况并非一定如此。3种情况的CI都包含了0，因此，效应值都不具有统计学显著性，研究将被解释为具有阴性或中性结果。然而，由于预先指定了特定的MCID，每个CI都有不同的解释。

区间A仅包含介于治疗有害的MCID和治疗获益的MCID之间的数值，对于这种情况的结果，可以解释为治疗效果不具有临床意义。

区间B的取值范围包括了区间A，以及大于治疗获益的MCID的数值。对于这种情况的结果，可以解释为治疗效果不具有伤害性，包括无治疗效果和治疗获益。

区间C包括区间B，以及大于治疗有害的MCID绝对值。对于这种情况的结果可以解释为治疗效果包括临床无效，以及有意义的治疗获益和治疗伤害。即使在无法预先指定MCID的情况下，仍然可以通过描述CI的范围来增强对无统计学显著性结果的呈现。

置信区间的局限性

尽管CI可以用来增强对研究结果的解释，但它们也有许多局限性[5]。例如，95%CI并不意味着有95%的概率会包含研究结局的真实值（例如，真实的治疗效果），这种说法在很多地方被错误的描述。

如果要建立一个包含真实值的指定概率区间，即概率区间，需要进行贝叶斯分析[6]。此外，95%CI内的数值并不是唯一可能产生当前数据和模型结果的数值，它们仅仅是最相容的数值。

上述的《JAMA Surgery》研究，

是如何应用置信区间来解释结果的？

在这项研究的统计分析部分，作者Hung等写到：“最后，我们对再次手术并接受放射性碘治疗的患者与再次手术但未接受无放射性碘治疗的患者之间的肿瘤再次复发差异进行了检验效能分析，我们确定有80%的把握度可以检测到22%的复发率差异”。

（原文英文：Finally, we performed a power analysis with regard to our ability to detect a difference in second recurrences between patients who underwent reoperation with RAI vs patients who underwent reoperation without RAI; we determined that we had 80% power to detect a 22% difference in second recurrences.）

进行检验效能计算，是为了确定在一组50名患者和另一组52名患者的样本中，按照80%的检验效能可以检测到的最小效应值。在调整后的Cox比例风险回归模型中，结果显示HR为1.12，95% CI为0.43-2.98（P=0.81）。

根据事后的把握度计算，作者得出结论，“再次手术并接受放射性碘治疗与无疾病复发生存期显著延长不具有关联性，但也可能存在低于22%的差异。”

（原文英文：reoperation with receipt of RAI is not associated with a significant prolongation of recurrence-free survival. A difference of less than 22% remains possible.）

基于上述原因，Hung等人对数据的另一种呈现方式，是用对CI的解释来代替事后的检验效能分析。“与再次手术但未接受放射性碘治疗的患者相比，再次手术并接受放射性碘治疗的患者，肿瘤再次复发的HR的范围为0.43（较低的复发风险）至2.98（较高的复发风险）”。

（英文原文：The outcomes of patients undergoing reoperation with receipt of RAI were consistent with hazard ratios ranging from 0.43 (lower risk of recurrence) to 2.98 (higher risk of recurrence) compared with reoperation without RAI.）

在既往研究的基础上，预先设定MCID值，可以获得进一步的信息来确定CI的范围是否包含具有临床意义的数值。

参考文献：

1.JAMA Surg. 2018;153(12):1098-1104.

2. Glossary of statistical terms. https://hbiostat.org/doc/glossary.pdf

3. Am Stat. 2019;73(Sup 1):262-270.

4. JAMA. 2014;312(13):1342-1343.

5. Eur J Epidemiol. 2016;31(4):337-350.

6. JAMA. 2017;318(16):1605-1606.