2. 北京协和医院急诊科, 北京 100730;
3. 北京协和医院保健医疗部, 北京 100730;
4. 清华大学人工智能学院, 北京 100084;
5. 北京信息科学与技术国家研究中心, 北京 100084
2. Emergency Department, State Key Laboratory of Complex Severe and Rare Diseases, Peking Union Medical College Hospital, Chinese Academy of Medical Science and Peking Union Medical College, Beijing 100730, China;
3. 3Department of Health Care, Peking Union Medical College Hospital, Chinese Academy of Medical Sciences and Peking Union Medical College, Beijing 100730, China;
4. 4College of AI, Tsinghua University, Beijing 100084, China;
5. 5Beijing National Research Center for Information Science and Technology, Tsinghua University, Beijing 100084, China
脓毒症作为一种感染诱发的的全身炎症反应,是重症监护室中主要的死亡原因之一[1],2020年在全球约共有4 900万人发病,导致约1 100万例死亡[2]。国家重症医学质控中心/北京协和医院杜斌教授团队于2023年发表的研究,是目前中国脓毒症流行病学调查的最新成果。研究显示,脓毒症发病率超过421例/10万人,且全国范围内13.1%的死亡病例与脓毒症有关[3]。考虑到相当一部分脓毒症患者在进入急诊短时间内发病,且及时治疗与脓毒症患者的预后间存在着显著联系[4-6],在急诊设置高效的脓毒症预警机制将有助于医护人员进行及时干预,从而改善患者预后。
然而,目前常用的序贯器官衰竭(sequential organ failure assessment, SOFA)评分等方法在早期识别脓毒症时需求工作量相对较大,不适合在急诊场景下用于大规模筛查;而指南较为推荐的快速SOFA(qSOFA)又存在过于敏感、特异度较低的问题。因此,本课题组先前提出可以使用机器学习方法进行急诊分诊24 h内脓毒症预警[7],通过轻量级算法减轻急诊医护的工作量。
在真实临床场景中,机器学习模型一般起到辅助医生工作的作用,通过提供其评估结果、确信度与其他信息,为医生的诊疗决策提供参考。在这一过程中,最终的诊疗效果不仅取决于医生自身的诊疗能力与模型的性能,还受到人机协作效果的影响。在本研究中,将人机协作定义为医生与机器学习模型间的协作。有效的协作可超越单独医生或模型所能达到的诊疗能力,而低效或无效的协作则几乎无法带来提升,甚至可能造成诊疗效果的下降。根据以往人机协作的研究,医生与人工智能间的协作效果取决于医生工作经验、人机协作模式、程度恰当的信任等多种因素[8-9]。因此,为了提升临床场景下模型的辅助能力,针对急诊分诊24 h内脓毒症预警中人机协作的影响因素展开本研究。既往的人机协作研究多只设计一种协作方式,而本研究进一步探索了在人工智能提供解释性信息时,具有不同信息量和不同阅读、理解成本的协作模式对人机协作效果的影响。
1 资料与方法 1.1 预测模型简述本研究用于进行协作研究的机器学习预测模型,为本团队先前开发的急诊分诊24 h内脓毒症风险预测模型[7]。该模型基于急诊分诊时采集的11个人口信息学特征和基础体征,以及基于体征计算的2个新特征,使用XGBoost算法[10]预测患者在24 h内脓毒症发病的风险,在共14 957个训练案例上取得了84.1%的预测准确率。相较于qSOFA等用于脓毒症评估的传统方法,此轻量级模型需求的工作负担较小、预测速度更快、预测准确率更高,便于在急诊场景下进行大规模筛查预警。
1.2 数据基础机器学习预测模型训练使用的数据来自公开医疗数据库MIMIC-Ⅳ(v2.2)[11-13],该数据库收集了贝斯以色列女执事医疗中心(BIDMC,Beth Israel Deaconess Medical Center)2008—2019年间超过19万例患者的临床数据,其中包含急诊和重症监护室患者的人口信息学数据、体征、化验结果等。最终建立的训练数据集中,每个案例包含一名患者的13个特征:入院时间(小时)、入院交通方式(自行入院、救护车、直升机、其他)、年龄、性别、体温、心率、呼吸频率、血氧饱和度、收缩压、舒张压、分诊ESI分级(1~5,越小的数字说明紧急性越高)、休克指数、平均动脉压。此外每个案例也包含1个类别标注,其中正类对应急诊分诊24 h内脓毒症发病的患者,负类对应整个住院周期内未发生脓毒症的患者。
在机器学习模型训练数据集的基础上,本研究挑选出40个案例用于进行人机协作研究。为了研究机器学习模型对预测结果的确信度和人机协作效果的关联,将案例分为4类:模型判断为高风险且确信程度高、模型判断为低风险且确信程度高、模型判断为高风险且确信程度低、模型判断为高风险且确信程度低,其中每类各10个案例。模型对高确信程度案例的确信度超过99%,且预测判断均正确,这些案例可以看作脓毒症发病与否的典型案例;对低确信程度案例的确信度则在50%~55%范围内,且无论模型判断为高或低风险,选出案例的实际正确率均为50%,即各有5个正确,5个错误,这些案例可以看作判决难度相对较大的非典型案例。
1.3 协作对象在与人工智能协作的医护人员方面,本研究邀请了全国多所医院的急诊科医生,从2024年6月至9月进行了测试,最终共有来自58所医院的165名医生参与了测试。为了研究医护人员工作经验和人机协作效果的关联,将参与测试的医生按照职称分为3组:初级医生(医学生与住院医生,共42位)、中级医生(主治医生,共51位)、高级医生(副主任或主任医师,共72位)。
1.4 人机协作模式机器学习模型除进行脓毒症预测,输出案例的脓毒症风险为高/低,以及对该评估结果的确信度外,还能通过SHAP方法[14-15]输出各特征对预测结果的重要性,从而对预测结果进行解释。为了研究解释性信息的呈现形式和人机协作效果的关联,设计了以下4种不同的人机协作模式,各协作模式详情见图 1。
![]() |
图 1 四种信息量与阅读成本不同的协作模式 Fig 1 The four collaboration modes with different information volumes and reading costs |
|
模式一:低信息量、低阅读成本。仅给出机器学习模型的风险评估与确信度,不提供额外的解释性信息。
模式二:低信息量、高阅读成本。在给出机器学习模型的评估与确信度后,以表格形式额外提供各特征的SHAP值、单项风险(OR)和累计风险(OR)。虽然这种协作模式比模式一添加了各特征的风险信息,但SHAP值、单项风险和累计风险提供的信息本质上是相同的,存在较多信息冗余,因此属于“低信息量、高阅读成本”。
模式三:高信息量、高阅读成本。在给出机器学习模型的评估与确信度后,依次输出各特征的单项风险和SHAP依赖图,该图表示在模型训练使用的所有患者中,脓毒症风险与该特征的关联。这种协作模式不仅添加了各特征的风险信息,也提供了脓毒症风险与特征取值关系的信息,但显示的大量图片会增加阅读成本,因此属于“高信息量、高阅读成本”。
模式四:高信息量、低阅读成本。这种协作模式与模式三基本相同,但SHAP依赖图不再默认全部显示,而是仅在进行测试的医生点击按键后,再显示相应特征的SHAP依赖图。本研究认为,对于部分典型特征取值,如过高的体温或过低的血氧饱和度,其与脓毒症风险的关联比较明确,未必需要显示相应的SHAP依赖图。仅在点击按键时显示这些图片,在保留所有有效信息的基础上,可以按照医生的实际情况减少所需要进行的阅读量,因此属于“高信息量、低阅读成本”。此外,为了进一步研究这种协作模式对协作的影响,统计了此模式下各特征的SHAP依赖图被点击显示的次数。
1.5 测试方式如上文所述,在使用机器学习方法预测急诊分诊24 h内脓毒症发病的场景中,本研究主要考虑三点可能影响人机协作效果的因素:机器学习模型对自身预测结果的确信度、参与协作的医生的工作经验、呈现可解释性信息的不同模式。
为了同时对这三点因素展开研究,本研究要求参与测试的医护人员输入自己的职称,对于每一种职称分类(见1.3)的人员,对其随机分配四种协作模式之一,且无论采用哪种协作模式,参与者都将进行由1.2中所述模型确信程度不同的40个案例所组成的测试。
本研究通过微信小程序展开测试,为了避免偏差,40个案例将以随机顺序提供给参与者。在测试过程中,参与者将先看到一个案例中患者的13个特征,在机器学习模型不参与的前提下,对该患者的脓毒症风险(“高”或“低”)进行评判,并记录对该评判的确信度(“低”、“中”或“高”)。随后机器学习模型将输出其评估和确信度(百分比形式),并按照该参与者被分配的协作模式提供相应的解释性信息。在阅读机器学习模型的输出后,参与者将再次评判患者的脓毒症风险,并记录新的确信度,测试流程见图 2。
![]() |
图 2 测试过程流程图 Fig 2 The flow chart of the collaboration test |
|
在比较模型提供输出前,各级别医生判断正确率的差距时,使用独立样本t检验;而在衡量使用模型的输出前后对于医生评判正确率的影响时,则采用配对t检验。以P<0.05为差异有统计学意义。
2 结果 2.1 测试参与情况考虑到本研究的目标,将在机器学习模型提供预测前后都进行判决的情况称为“有效判决”,并通过小程序后台去除所有未进行有效判决的案例。为确保测试结果的可靠性,统计每个参与者评判每个案例所消耗的时间,去除了评判耗时不足5 s的案例。在参与测试的165名医生中,147名医生对至少1个案例进行了有效且耗时不少于5 s的判决,进行判决的案例数总计4 704个,测试结果数据清洗流程见图 3,后续分析均基于这部分案例的人机协作结果展开。
![]() |
图 3 测试结果数据清洗流程图 Fig 3 The flow chart of data cleaning for the test results |
|
为了衡量协作效果,除参与测试的医生在收到机器学习模型输出前后判决正确率外,本研究还统计了以下4个指标:若测试者看到模型输出后修改自身判决,则其修改为正确/错误判断的次数;若测试者看到模型输出后未修改判决,但对判决的确信度发生变化,则其更确信正确/错误答案(或怀疑错误/正确答案)的次数。在统计结果中,对模型对自身判断确信程度高的两种情况进行合并,对模型对自身判断确信程度低的两种情况进行合并,完整结果见附表 1。
医生职称 | 模型对判决确信程度 | 医生初次判断正确(次) | 医生初次判断错误(次) | 模型提供结果后,修改为正确判断(次) | 模型提供结果后,修改为错误判断(次) | 模型提供结果后未修改,确信度偏向正确(次) | 模型提供结果后未修改,确信度偏向错误(次) | 医生正确率(%) | 模型提供结果后正确率(%) |
初级 | 高 | 450 | 50 | 14 | 1 | 39 | 4 | 90 | 93 |
低 | 207 | 289 | 21 | 39 | 9 | 26 | 42 | 38 | |
中级 | 高 | 676 | 64 | 22 | 4 | 51 | 7 | 91 | 94 |
低 | 334 | 420 | 25 | 46 | 35 | 50 | 44 | 42 | |
高级 | 高 | 1035 | 100 | 28 | 2 | 47 | 10 | 91 | 93 |
低 | 490 | 655 | 30 | 52 | 45 | 50 | 43 | 41 |
对于各职称分级的医生,模型确信程度相同,采用不同协作模式时,模型输出结果前后判决正确率变化并未观察到显著规律(见图 4),因此将各协作模式合并,得到表 1,其中“确信度偏向正确”表示更确信正确判断或怀疑错误判断,而“确信度偏向错误”表示更确信错误判断或怀疑正确判断。此外,对于高信息量、低阅读成本的协作模式,共31名医生进行了1 003次评判,但各特征SHAP依赖图点击显示次数最大值不超过15。
![]() |
图 4 不同协作模式下模型输出结果前后医生判断正确率变化 Fig 4 The changes in the prediction accuracy of the doctors before and after the model output its results under different collaboration modes |
|
在模型提供输出前,在模型确信程度不同的案例上,中级医生的判断正确率与高级医生和初级医生均差异无统计学意义(P分别为0.98、0.96)。模型确信程度高的案例各职称医生正确率超过90%,而模型确信程度低的案例各职称医生正确率不足45%。
在模型提供输出后,对于模型确信程度高的案例,各职称医生的评判正确率能提升2.6%±0.6%(P=0.02),说明机器学习模型的辅助对急诊医生的脓毒症风险识别能力的提升显著。此外根据表 1,各职级医生对正确评判的确信度(或对错误评判的怀疑度)也有一定的提升。而对于模型确信度程低的案例,各职称医生的评判正确率降低了2.6%±1.4%(P=0.06),对正确评判的确信度(或对错误评判的怀疑度)整体上也发生了下降。
3 讨论眼科与皮肤科等专科已针对医生与人工智能的协作展开研究[16-17],并发现通过恰当的人机协作,能够结合医生与人工智能算法双方的优势,从而进一步提升诊疗能力。考虑到脓毒症预警的重要性与急诊场景下的繁忙程度,就更有必要引入人工智能与急诊医生进行协作,从而提升急诊脓毒症预警的效率与效果。同时,在急诊分诊时利用少数特征进行脓毒症预警存在较高的难度,因此需要通过设计恰当的人机协作模式,进一步提升对脓毒症风险的识别能力。
大量既往研究提出,人机协作效果受到医生专业水平影响,不同经验层次的医生从人工智能中的受益不同[8, 17],本研究也按照职称将医生分为三组,从而研究医生经验水平对人机协作效果的影响。考虑到实际场景下患者情况的多样性,本研究同时选择了模型确信程度较高的典型案例,与确信程度较低的非典型案例用于协作测试。此外,部分先前研究也指出,人机协作效果受到人工智能提供的可解释性信息或信息呈现形式的影响[8, 17],但大部分既往研究并未设计多种协作模式。本研究基于人工智能方法提供的可解释性信息,创新性地设计了4种具有不同信息量和阅读理解成本的协作模式,从而研究可解释性信息的不同呈现形式对人机协作的影响。
根据模型提供输出前各职称医生的评判正确率,可以发现模型对自身评判的确信程度与案例实际的评判难度基本一致。在医生评判正确率较高的高确信程度案例上,额外提供机器学习模型的判决结果与确信度,能进一步提升各急诊科医生群体的判决效果:各医生群体不仅在判决正确率上取得了较一致的提升幅度,同时也能更确信自身做出的正确评判或怀疑错误评判。因此,在机器学习模型对患者脓毒症风险评判确信程度较高的情况下,应当向医生提供其评估结果作为参考,从而辅助医生进行后续的筛查或诊疗。
而对于机器学习模型确信程度较低的情况,由于急诊分诊时可采集使用的特征数量少,评判难度大,且低确信度情况下案例不典型,导致医生的评判正确率同样较低,低于机器学习模型的正确率。此时向医生提供模型评估结果,反而会导致判断正确率进一步下降,且医生将更确信自身做出的错误评判或怀疑正确评判。这可能是由于在判决难度较高的基础上,模型未必正确的评判与较低的确信度进一步干扰了医生的评判。因此,当机器学习模型对患者的脓毒症风险进行判决后,对得出的结果确信程度较低时,不应当直接向医生呈现其评估结果,以免造成负面影响。但此时医生自身判断正确率同样较低,可以由系统对医生进行提醒,对于这些评判难度较大的患者进一步展开相关的观察或检验。
不同职称的医生评判脓毒症风险时的准确性受到模型评估结果的影响整体一致:模型确信度较高时,提供结果后各职称医生的准确率一致上升,模型确信度较低时则反之。该现象可能是由于急诊脓毒症预警中,能使用的数据相对较少,每个案例仅有13个特征,因此工作经验对医生评判准确率的影响也相对较小。因此,在模型提供输出前,各职称医生的评判准确率差异无统计学意义,在模型提供输出后,模型的输出信息同样对准确率造成了整体一致的影响。
不同的协作模式对人机协作效果并未造成显著影响。在不同的协作模式下,机器学习模型对医生评判结果的影响基本一致,且高信息量、低阅读成本的协作模式下较少的SHAP依赖图点击显示次数也说明医生很少查看提供的额外解释性信息。这一现象有两点可能原因:第一,本研究中每个案例仅有13个特征,以表格形式进行呈现,对于这种相对较简单直观的数据类型,最简单的协作模式可能就足以辅助判决,医生未必能从额外的解释性信息中获益。第二,医生在进行测试时,可能并未认真阅读解释性信息,导致不同协作模式造成的差距不大,但这也意味着在繁忙的急诊场景下,医生可能更不会花费额外时间阅读相对复杂的解释性信息。以上两种原因都说明,在实际临床场景中,机器学习模型只需要提供最简单的判决结果和确信度,额外的解释性信息可能只会带来不必要的阅读成本。
本研究的结论仍然存在一定的局限性:本研究邀请的医生人数与测试使用的案例数量均有限,在普遍性方面可能有一定的不足;协作测试通过在线小程序进行,参与的医生们远程进行测试,结果的可靠性也可能有一定的不足。
综上所述,通过对协作测试结果进行总结分析,本研究发现,在使用机器学习模型辅助医生进行急诊分诊24 h内脓毒症预警时,可以采用以下方式提升人机协作效果:(1)当模型对自身评判结果确信程度低时,不直接呈现算法评估结果,而是提示医生该患者评判难度较高,需要进一步观察;(2)当模型对自身评判结果确信程度高时,可以通过提供其结果作为参考,提升各急诊医生群体的判断正确率;(3)在协作模式上,在急诊分诊脓毒症预警场景中,直接提供模型的判决结果与确信度即可,不需要提供额外的解释性信息。以上协作方式设计有助于提升急诊医生对患者脓毒症风险的预测能力。
利益冲突 所有作者声明无利益冲突
作者贡献声明 谢敬原、高键东:研究设计、研究实施、数据分析、论文撰写;李直懋、刘业成:数据采集、结果分析;朱华栋、吴及:论文审核、指导
本文附表请登陆中华急诊网(www.cem.org.cn)浏览(Html格式全文)
[1] | Mutters NT, De Angelis G, Restuccia G, et al. Use of evidence-based recommendations in an antibiotic care bundle for the intensive care unit[J]. Int J Antimicrob Agents, 2018, 51(1): 65-70. DOI:10.1016/j.ijantimicag.2017.06.020 |
[2] | World Health Organization. Global report on the epidemiology and burden of sepsis: current evidence, identifying gaps and future directions[R/OL]. World Health Organization, 2020. https://apps.who.int/iris/handle/10665/334216. |
[3] | Weng L, Xu Y, Yin P, et al. National incidence and mortality of hospitalized sepsis in China[J]. Crit Care, 2023, 27(1): 84. DOI:10.1186/s13054-023-04385-x |
[4] | Uffen JW, Oosterheert JJ, Schweitzer VA, et al. Interventions for rapid recognition and treatment of sepsis in the emergency department: a narrative review[J]. Clin Microbiol Infect, 2021, 27(2): 192-203. DOI:10.1016/j.cmi.2020.02.022 |
[5] | Brink A, Alsma J, Verdonschot RJCG, et al. Predicting mortality in patients with suspected sepsis at the Emergency Department; A retrospective cohort study comparing qSOFA, SIRS and National Early Warning Score[J]. PLoS One, 2019, 14(1): e0211133. DOI:10.1371/journal.pone.0211133 |
[6] | Piccioni A, Santoro MC, de Cunzo T, et al. Presepsin as early marker of sepsis in emergency department: a narrative review[J]. Medicina (Kaunas), 2021, 57(8): 770. DOI:10.3390/medicina57080770 |
[7] | Xie JY, Gao JD, Yang MT, et al. Prediction of sepsis within 24 hours at the triage stage in emergency departments using machine learning[J]. World J Emerg Med, 2024, 15(5): 379-385. DOI:10.5847/wjem.j.1920-8642.2024.074 |
[8] | Knop M, Weber S, Mueller M, et al. Human factors and technological characteristics influencing the interaction of medical professionals with artificial intelligence-enabled clinical decision support systems: literature review[J]. JMIR Hum Factors, 2022, 9(1): e28639. DOI:10.2196/28639 |
[9] | Asan O, Bayrak AE, Choudhury A. Artificial intelligence and human trust in healthcare: focus on clinicians[J]. J Med Internet Res, 2020, 22(6): e15154. DOI:10.2196/15154 |
[10] | Chen TQ, Guestrin C. XGBoost: a scalable tree boosting system[C]//Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. San Francisco California USA. ACM, 2016: 785-794. DOI: 10.1145/2939672.2939785. |
[11] | Johnson A, Bulgarelli L, Pollard T, et al. MIMIC-IV (version 2.2)[DB/OL]. PhysioNet, 2023. DOI: 10.13026/6mm1-ek67. |
[12] | Johnson AEW, Bulgarelli L, Shen L, et al. MIMIC-IV, a freely accessible electronic health record dataset[J]. Sci Data, 2023, 10(1): 1. DOI:10.1038/s41597-022-01899-x |
[13] | Goldberger AL, Amaral LA, Glass L, et al. PhysioBank, PhysioToolkit, and PhysioNet: components of a new research resource for complex physiologic signals[J]. Circulation, 2000, 101(23): E215-E220. DOI:10.1161/01.cir.101.23.e215 |
[14] | Lundberg S, Lee SI. A unified approach to interpreting model predictions[EB/OL]. arXiv, 2017. DOI: 10.48550/arXiv.1705.07874 |
[15] | Lundberg SM, Erion G, Chen H, et al. From local explanations to global understanding with explainable AI for trees[J]. Nat Mach Intell, 2020, 2(1): 56-67. DOI:10.1038/s42256-019-0138-9 |
[16] | Li B, Chen H, Yu WH, et al. The performance of a deep learning system in assisting junior ophthalmologists in diagnosing 13 major fundus diseases: a prospective multi-center clinical trial[J]. NPJ Digit Med, 2024, 7(1): 8. DOI:10.1038/s41746-023-00991-9 |
[17] | Tschandl P, Rinner C, Apalla Z, et al. Human-computer collaboration for skin cancer recognition[J]. Nat Med, 2020, 26(8): 1229-1234. DOI:10.1038/s41591-020-0942-0 |