阅读时间 · 10 min read
KEY•TAKEAWAYS
>>一项随机临床病例调查研究,参与的医生被要求对急性呼吸衰竭患者做出诊断(肺炎、心力衰竭和COPD),基线诊断准确性为73.0%;当向其提供标准AI预测模型辅助诊断时,医生的诊断准确性提高到75.9%;向其提供带解释的标准AI模型预测,诊断准确性进一步提高到77.5%;向其提供有偏倚的AI模型预测则降低了诊断准确性,医生的诊断准确性降至61.7%;向其提供带解释的有偏倚的AI模型预测时,诊断准确性为64.0%,比无解释的偏倚AI预测稍有提高。
>>这些结果表明,标准AI模型可以提高诊断准确性,而偏倚的AI模型则可能降低准确性,尽管带解释的模型能够在一定程度上减轻这种负面影响。
自从ChatGPT发布以来,在过去的一年里,人工智能(AI)的浪潮席卷全球。诸如GPT、Bard、DALL-E等生成式模型正在改变内容生产的方式。在医学领域,基于大语言模型的AI可以帮助改变和简化科研的流程,例如,自动化分析和总结大量医学文献,帮助临床研究人员快速获取信息;也可以提供医学问答交互,为患者做简单的答疑;甚至提供诊断和治疗建议,支持医生的临床决策。其实将AI结合到临床决策中的研究不在少数,例如,图像识别模型用于医学影像分析和病例诊断;聚类模型帮助识别疾病的模式、患者的分层;其他一些预测模型还可以应用于风险评估,药物选择,患者管理等各种场景。临床医生有了AI的辅助,可能比没有AI做得更准确、更高效。但是,想起ChatGPT经常一本正经地胡说八道,不由得让人怀疑AI一定总是正确的么?FDA曾强调为临床医生提供来自AI的建议时,需要能够让医生具备独立审查建议正确与否的能力[1],例如,给出模型在决策中使用的信息和逻辑等。确实,当GPT回答我的提问时,如果要求它给出解释,确实能够帮助有经验的人识别其回答的好坏。但按照FDA的建议,向临床医生提供类似的解释是否可以真的帮助临床医生在采取行动之前更好地理解模型的逻辑吗?尤其是在模型有系统性偏倚存在时,是否可以减少决策的失误。为了确定提供AI解释是否可以提高临床医生的诊断准确性,减小有偏倚的模型的负面影响,美国一个研究团队进行了一项随机临床病例调查研究[2]。研究将急性呼吸衰竭的诊断作为测试案例,原因是急性呼吸衰竭在临床实践中较常见,经常被误诊;并且可以使用AI工具通过分析常见数据(如胸部X光片)进行评估和诊断。研究向参与的临床医生展示了标准的和有偏倚的AI模型,并且随机将参与者分配到仅有AI预测,和同时具备AI预测且带有解释的不同模型组,最后查看临床医生的诊断准确性。研究结果发表于近期的《JAMA》杂志上。
图1 JAMA. 2023;330(23):2275-2284. doi:10.1001/jama.2023.22295具体来看,研究基于2017年在密歇根大学住院治疗的45个急性呼吸衰竭病例,由至少4名肺科医生独立回顾了每个患者的完整医疗记录(包括病史、当前用药、体检结果、实验室检查和影像学检查等),以确定患者的基础诊断,包括肺炎、心力衰竭和/或慢性阻塞性肺病(COPD),作为正确的参考诊断标签。研究从45个临床病例中选择了9个,从病例1到病例9。给到参与的医生供其做出诊断选择(图2)。
图2 研究设计流程图
病例1和病例2没有AI模型的干预,由医生凭自己的经验进行诊断。
用来评估医生诊断的基线准确率。
病例3到病例8(共6个病例)由AI辅助医生诊断。
参与的医生按照1:1的比例随机分配接受有解释的AI模型辅助或者无解释的AI模型辅助;有解释的AI模型,医生会看到基于图像的AI模型给出的诊断预测和解释;无解释的AI模型,医生只会看到AI给出的诊断预测。
每个干预组中的6个病例,又随机分配一半病例由标准的AI模型辅助,一半病例由“偏倚”的AI模型辅助。偏倚的AI模型有3个,所有参与者被随机分配查看3个偏倚AI模型中的1个:针对体质量指数的偏倚(BMI):对BMI 30以上的患者预测患心力衰竭的可能性更高;针对图像预处理的偏倚(Preprocessing):对胸部X光片应用模糊处理的患者预测患COPD的可能性更高;
针对年龄的偏倚(Age):对80岁以上患者预测患肺炎的可能性更高;
病例9则是一个附带了诊断和相关建议的正确病例。
由“假想”的同事提供最可能的诊断和相关建议,以模拟现实临床情况中同事间的咨询。
因此,上述设计实际上提供了4个干预组,分别是:有解释的/标准AI模型,有解释的/偏倚AI模型,无解释的/标准AI模型,无解释的/偏倚AI模型。参与者在每个临床病例后评估肺炎、心力衰竭或COPD的可能性,并选择治疗方案。研究的主要结果是病例诊断的准确性,定义为正确诊断评估的数量除以总评估数量。参与者在每个病例中分别对肺炎、心力衰竭和/或COPD做出3个独立评估,如果参与者的评估与参考诊断标签一致,则诊断评估正确。研究使用对所有诊断的评估计算总体准确性(overall),使用与特定诊断相关的评估计算特定诊断的准确性(肺炎、心力衰竭、COPD)。研究次要结果包括治疗选择准确性、参与者诊断评估分数与模型分数之间的相关性等。2022年4月至2023年1月期间,来自美国13个州的共457名参与者至少完成了1个临床病例的诊断,并被纳入主要分析,其中226名被随机分配到有解释的AI模型辅助。有418名参与者完成了所有9个病例的诊断。参与者中位年龄为34岁,57.7%为女性,有66.7%的参与者不知道AI可能存在系统性偏倚。基线时,在没有AI模型的干预下,医生诊断的总体准确性为73.0%(95% CI:68.3%~77.8%),肺炎的准确性为67.5%(95%CI:61.0%~74.0%),心力衰竭为70.7%(95%CI:63.1%~78.3%),COPD为80.5%(95%CI:74.8%~86.1%)。(图3)当提供标准AI预测模型作为辅助时,参与者的诊断准确性增加到75.9%(95% CI:71.3%~80.5%),较基线增加了2.9个百分点(P = .02)。当提供带解释的标准AI模型辅助时,准确性增加到77.5%(95% CI:73.0%~82.0%),较基线增加了4.4个百分点(P < .001)。在模拟临床咨询时,参与者的诊断准确性为81.1%(95%CI:76.9%~85.4%)。(图3)而当提供没有解释的偏倚的AI模型时,参与者的诊断准确性降低到61.7%(95%CI:55.3%~68.2%),较基线下降了11.3个百分点(P < .001)。当提供带解释的偏倚的AI模型时,准确性为64.0%(95%CI:57.6%~70.3%),较基线下降了9.1个百分点(P<.001),与没有解释的偏倚的AI模型相比,没有显著差异(P = .37)。(图3)
图3 基线诊断准确率和不同临床场景中的诊断准确率差异所有效应值在不同亚组中的效果方向均是相似的。即不论是在特定的单一诊断中,还是在不同的医生职称(住院医生,助理医生,执业护士)中,抑或参与者是否之前有使用过临床决策辅助系统,所有亚组均表现出:标准的正确的AI预测可以提高医生诊断的准确性,而偏倚的AI模型严重降低医生诊断的准确性,提供解释有助于略微增加准确性。治疗决策方面,在没有模型预测时,治疗选择准确性为70.3%(95%CI:65.5%~75.2%),当有标准AI预测模型作为辅助时,准确性增加到77.0%(95%CI:72.6%~81.4%),增加了6.7个百分点;当有带解释的标准AI模型辅助时,准确性为80.4%(95%CI:76.3%~84.5%),增加了10.1个百分点。(图4)当提供错误的偏倚预测时,参与者的治疗选择准确性为55.1%(95%CI:48.8%~61.3%),下降了15.3个百分点;当提供带解释的偏倚的AI模型时,治疗选择的准确性仍然较基线下降12.5个百分点,提供解释并未显著提高参与者做出正确治疗选择的准确性。(图4)
图4 基线治疗选择准确率和不同临床场景中的治疗选择准确率差异最后,参与者做出的反应(诊断或选择)与标准AI模型预测的相关性为0.53(95%CI:0.50~0.57),与有解释的标准AI模型预测的相关性为0.59(95%CI:0.56~0.62)。参与者反应与偏倚AI模型的相关性为0.41(95%CI:0.38~0.45),与有解释的偏倚AI模型的相关性为0.41(95%CI:0.37~0.45)。说明AI的预测确实对于医生的决策产生了一定的影响,并且当AI预测正确时,提供解释对于医生做出反应的关联更大;而反过来,当AI提供错误的预测,医生也会给出一致的“错误”的判断。总结&讨论这项研究的结果表明,标准AI模型的预测和解释提高了临床医生的诊断准确性,但是带有系统性偏倚的预测模型和解释则降低了准确性;并且,提供相应的解释并不能显著提高临床医生的诊断准确性。这意味着,AI对临床诊断的帮助仍然具有局限性。依赖正确的、精准的AI模型,确实可以助力临床决策,提高准确性和效率;但是反过来,依赖有偏差的模型,可能会给医生帮倒忙,甚至会放大出现的“错误”。临床医生在识别人工智能模型何时出现故障方面的能力有限。另一方面,这个事实也充分体现了AI模型“Garbage In, Garbage Out”的特点,如果输入到AI模型中的数据质量差或不准确,那么模型产生的输出也将是不可靠或错误的。目前AI的发展尤为迅速,将AI结合到临床工作中为大势所趋。但临床决策往往是性命攸关的,有时候容不得甚至0.05%的错误。因此,为了能够使得AI能够真正在临床帮得上忙。我们仍然需要强调数据质量在设计、构建和训练AI模型中的重要性;以及模型的开发人员和业务场景中的需求人员(即临床工作者)其充分的沟通和“理解”;最后,对于成功构建的模型需要反复、多方的验证,并且尽量使其具有可解释性或者提供解释。宏观层面,对于临床工作人员,相关的AI技术也应纳入培训;监管机构对于模型审批需要严格的标准。临床工作中,AI是一个助力的工具,是一个强有力的伙伴,但我们绝不能过分迷信或者依赖AI。现阶段,“AI
+ human overwrite”的模式依旧可行,其中的human一定是主观能动的,有经验的,有辨别能力的,握有决策权的临床医生必然需要成为有“缺陷”AI的最后防线!(完)*文章不构成任何诊疗相关建议,仅供医(药)学背景小伙伴参考学习参考文献:1、Clinical decision support software: guidance for industry
and Food and Drug Administration staff. US Food and Drug Administration.
September 28, 2022. Accessed March 1, 2023. https://www.fda.gov/regulatory- information/search-fda-guidancedocuments/clinical-decision-support-software2、Jabbour S, Fouhey D, Shepard S, et al. Measuring
the Impact of AI in the Diagnosis of Hospitalized Patients: A Randomized
Clinical Vignette Survey Study. JAMA. 2023;330(23):2275-2284. doi:10.1001/jama.2023.22295主创、编辑:Mr. Cat
审核:Miss Aye
~若有疏漏,欢迎指正!若有任何问题,也欢迎随时私信交流讨论~
免责声明:本公众号文章是为传递医学领域前沿资讯和信息,对已发表的学术文献进行分享和解读,对科学科普的热点话题进行循证解答。文中观点不代表Spinoza Life Science的立场,文章仅供医药学背景人士参考学习使用,无任何利益冲突,不构成任何诊疗相关的建议或者观点。如需治疗方案,请往正规医院就诊或咨询专业医护人员。
版权说明:本文来自Spinoza Life Science旗下《猫先生的茶话会》医学内容团队,欢迎所有热爱医药学的小伙伴转载本公众号原创内容至朋友圈,谢绝未经许可/授权以任何形式转载至其他平台。如需转载授权,或开通白名单,请关注本公众号,在微信公众号中回复“转载”,获取内容转载须知。文中部分图文来源于网络,文献以及公开资料,或者基于此的编辑创作,如有侵权,请联系删除。
引用:如需引用本图文,可按照以下格式【猫先生的茶话会. 《成也AI,败也AI?AI在临床诊断中是一把双刃剑》. 2024.01.08】添加引文,或者直接添加本文链接。
~~点击关注公众号,加入猫先生的茶话会,获取更多医学资讯~~