万亿癌症早筛市场的致命缺陷
数字可以让事情更有说服力,我想这就是为什么有些人使用“硬数字”这个短语,但即使是硬数字也可能具有误导性。假设你很有兴趣了解老年人中做筛查性乳腺X线摄影的价值。你碰到一个标题为“乳腺X线摄影或许会让所有女性受益,不分年龄”的新闻故事,故事中你发现了下面的生存率统计:“在80岁及以上的女性中,乳腺癌患者的5年生存率在未使用乳腺X线摄影的人群中为82%,在使用了乳腺X线摄影的人群中为94%”
假设这些数字都是正确的(而且它们很有可能是正确的),上面这句话似乎很有力地说明了乳腺X线摄影对老年人是有价值的。没做乳腺X摄影的老年乳腺癌患者中,只有82%活到了5年之后;而在做了乳腺X线摄影的患者中,94%活到了5年以后,看起来一目了然,应该去做乳腺X线摄影,但令人惊讶的是,这些数字并不能告诉你有关乳腺X线摄影对老年女性的价值的任何信息。
原始的信息是,早期诊断后出现了有利结果,而上面的这句话只是这个信息的数字版,当这些数字看起来如此令人信服的时候,就更难看出这些有利的结果并未揭露早期发现的价值,而只是说明了新发现病例的自然病程。
最基本的问题是,通常类似上述新闻故事里报道的数字都不是来源于
随机试验
,相反,这些数据是在对比接受筛查的人群和不接受是筛查的人群,这两类人群除了关于乳腺X摄影的决定不同以外,还可能在许多重要方面都不相同。总的来说,选择接受筛查的人更可能教育水平较高,比较有钱,而且整体上对自己的健康更加关注(如勤锻炼,抽烟几率低)。所以,尽管这是一种十分简便的比较,但它却不公平。选择接受筛查的人们肯定会比其它人更健康,因为他们从一开始就更健康,而不是因为他们接受了筛查。
但即使这两组女性除了在选择乳腺X线摄影上有所不同外,在其它方面都相仿,而且即使这些数据源自随机试验,这两组人群中5年生存率的差别依然无法说明乳腺X线摄影的价值。假设5年前,1000名女性被诊断为乳腺癌,如果820人活到了今天,那么5年生存率是820除以1000,即82%。如果940人活到了今天,那么5年生存率是940除以1000,即94%。但即使筛查性乳腺X线摄影将5年生存率从82%提高到94%,就像新闻报道里描述的那样,也完全有可能是:接受筛查的人并没有比她不接受筛查的情况多存活了哪怕一天。对这种明显的悖论有两种解释,被流行病学家称为领先时间 偏倚和过度诊断偏倚。要想理解这两种概念,最好的方法就是完成一个简单的思考实验,也就是你首先假定筛查无法帮助任何人延长存活时间,最后论证在这种情况下,5年生存率为何仍有提高!
领先时间偏倚
假设一组患有乳腺癌的女性,不管她们是由乳腺X线摄影诊断的还是基于临床症状诊断的,都将在90岁死于乳腺癌,如果所有这些人都在86岁时由于临床症状而接受了诊断,那么他们5年生存率将是0%,因为她们都会在90岁时死亡,每个人从诊断之日起都只能活4年。现在假设同样是这些女性做了乳腺X线摄影,乳腺X线摄影可以更早地发现癌症,我们假设可以提前两年发现,那么这样所有女性都会在84岁被诊断为乳腺癌,而不是86岁。突然之间,这些女性的5年生存率就会变成100%,尽管她们所有人仍然会在90岁死亡,更早诊断永远会增加生存率,但这并不必然意味着会延长寿命。这种被称为领先时间偏倚,下图中对此进行了说明:
当然,这是一种简化了的说话。我刚才假设所有的女性在84岁得到诊断,并不是说每个人都必须被早期诊断才会出现这种效应,只要有些人被确诊的时间提前了,并且提前到距离死亡时间5年以上,就会有这种偏倚。即使没有推迟任何人的死亡时间,生存率统计的数字也会上升,更早地做出诊断通常都会使得诊断之时起算的存活时间变长,但这种情况下,“较长的存活时间”可能仅仅说明你知道自己患有癌症的时间更长了。
过度诊断偏倚
如果存在过度诊断,那么即使没有挽救任何人的生命,生存率统计也会在早期诊断后有所提高。如果早期发现的一些异常符合病理学上癌症的定义,但永远不会发展到引起症状或死亡,生存率统计看起来将会更让人印象深刻。假设在某个城市中有1000名女性有乳腺癌的症状,这些人在胸部都被摸到一个肿块。诊断5年后,700人还活着,300人死了。那么5年的生存率是70%。现在我们让时光倒流,假说这个城市里每个女性都接受了筛查性乳腺X线摄影,那么或许1500名女性会被诊断为癌症,其中1000名是一定会出现肿块的,而另外500名是被过度诊断了。这500名女性在5年内不会死于乳腺癌(因为他们的癌症永远都不会生长)。但是这个城市里乳腺癌的5年生存率将上升到80%,因为在1500名被诊断的女性中,1200名存活下来了,这里面包括500名被过度诊断的女性。但是真正变化的是什么?500人不必要地被告知患有癌症,但是死亡人数并没有改变。不管是哪种情况,都是300名女性死于乳腺癌。这种效应被称为过度诊断偏倚,下图对此进行了说明!
领先时间偏倚和过度诊断偏倚通常会共同作用让早期诊断后的生存率统计数字更大,而且二者联合起来的效应强度可能比这里列举的大很多,这些偏倚可能不是把生存率从70%提高到80%,而是从5%提高到90%——仅仅是领先时间偏倚和过度诊断偏倚就完全可以达到这个效果!
在这两个思考实验中,为了简化数字,我都做了一个假设,就是早期诊断没有任何利处(或者弊处)。但是你应该知道,不管早期诊断的真实效果如何,这些偏倚都会发生,如果早期诊断的真实效果确实是有一些利处,这些偏倚可以放大可以看见的效果。如果真实效果是有一些弊处(比如,人们因为不必要的治疗而缩短了寿命),这些偏倚让人看不见这些弊处,让早期诊断看上去仍然是有益的。
最后需要指出的是,这个5年的时间间隔没有什么特殊之处,这两种偏倚对于诊断时间起算的任何生存率统计方式都有着相同的效应,无任是2年生存率,10年生存率,7年半生存率,还是其他。
随机试验:关于早期诊断价值无偏倚数据的唯一来源
由于早期发现的疾病和晚发现的疾病砸生存率方面的比较偏倚太大,用随机试验来测量死亡率成了获取早期诊断价值铁证实事的唯一可靠途径。
大家都知道,随机试验这种研究方式是把所有招募到的病人随机分配到两个小组中,要么接受治疗,要么不接受治疗。但是为了让研究人员真正了解早期诊断的价值所在,这里有一点微小的变化——要在病人被诊断之前招募。在一个关于早期诊断的随机试验中,完全健康的人脉被随机分配到早期
筛查组
或者对照组。这里的预期是,筛查组中的一些人会被查出有一些无症状的异常,从而接受治疗。这个实验的设计师为了比较早期筛查组的人和不接受筛查组的人在健康方面的差异。
为了完全捕捉到早期诊断的效果,最佳方式是在诊断之前进行随机分配。我们曾经用这种方法来研究筛查性乳腺X线摄影、大便潜血试验,前列腺癌的前列腺特异性抗原(PSA)筛查和腹主动脉瘤筛查。我们当前也在用这种方法研究肺癌的螺旋CT筛查。这种设计的巧妙之处在于它专门研究了“更加努力查找”的效果,并可以回答一系列问题:如果人群接受筛查,死亡率是否会降低?人们还需要承受那些检查和手术才能够判断他们早起发现的异常是不是真正的问题?比起没有接受是筛查的人来说,这些人将会忍受那些副作用或者并发症?有多少人会因为筛查而被过度诊断。
事实上,我们对没有任何症状的人们进行的各种筛查检测中,只有很少一部分接受了这种标准的检验。这包括常规体格检查,常规血项检查和成像检查(例如全身CT筛查)。而且没有任何随机试验研究了多种癌症早起发现的价值,例如皮肤癌,膀胱癌,肾脏癌,胰腺癌,宫颈癌,睾丸癌或者甲状腺癌。最后,我们想说,肿瘤早筛早诊不能笼统认为早筛查早受益。要看是否针对高危人群及发病率、具体是什么肿瘤、早筛技术和现有筛查技术比较、以及是否有良好的预后治疗等等。用错了,反而适得其反。
本文经授权发布,版权归原作者所有;内容为作者独立观点,不代表亿欧立场。如需转载请联系原作者。