【醉翁之艺】围术期神经功能保护系列之四:使用机器学习预测ICU患者的谵妄发生
将机器学习应用于大型数据库,成功开发并外部验证了一种准确预测ICU谵妄的新方法,有助于识别谵妄的高风险个体并提前进行干预。
谵妄在急性护理环境中尤其在重症监护室(ICU)中很常见,影响住院患者高达35%,影响需要重症监护的患者高达80%,每年在医疗保健支出方面的成本估计为1640亿美元。约30%至40%的谵妄病例可能能够使用降低谵妄的策略进行预防。Kirby团队创建了两个模型来预测谵妄,其结果发表于2023年3月的Anesthesiology杂志。
本研究旨在利用在床旁常规获得的生理和临床特征来训练机器学习模型,预测ICU谵妄的发作。
本研究是在麻省理工学院PhysioNet存储库提供的三个公共数据库上进行的:飞利浦eICU协作研究数据库(以下简称开发数据库),MIMIC-III(以下简称验证数据库1)和MIMIC-IV(以下简称验证数据库2)。前者用于模型的训练和测试,而后两者用于外部验证。开发数据库是一个基于多中心电子病历的数据库,包含美国208家医院在2014年~2015年间的200,859人次的ICU电子病历数据。验证数据库1包括2001年~2012年间在波士顿的贝丝以色列女执事医学中心的61,532份ICU电子病历数据。验证数据库2包括2008年~2019年在贝斯以色列女执事医学中心的76,943份ICU电子病历数据。由于两个验证数据库来自同一家医院且部分年份相同,因此有几率存在一些数据重叠。
本研究经麻省理工学院(编号0403000206)和贝斯以色列女执事医学中心(编号2001-P-001699/14)的机构审查委员会批准。
本研究创建了两种模型(图1)。第一种称为“首24小时模型”,分析了入住ICU后24小时内收集的数据,预测了在ICU滞留期间的任何后续时间发生谵妄的概率。第二种模型称为“动态模型”,使用从ICU入院到预测时间点的累积数据,并计算未来0~12小时发生谵妄的概率。对于出现谵妄的ICU滞留,该模型对第一个阳性谵妄筛查之前获得的数据来进行训练。对于没有谵妄的ICU滞留,该模型对阴性谵妄筛查之前获得的数据来进行训练。
图2展示了案例识别和选择过程。如果患者被转送至ICU,在ICU滞留超过24小时,并使用CAM-ICU或ICDSC进行谵妄筛查,则该患者纳入首个24小时模型。对于动态模型,纳入ICU滞留时间不少于12小时且至少进行1次谵妄筛查的患者。排除了在前24小时内进行谵妄测试或诊断的患者,以排除在预测时间之前已经患有谵妄的可能性。
主要结果变量为谵妄,定义为CAM-ICU评分为阳性,ICDSC评分为4分或以上。开发数据库中记录了CAM-ICU和ICDSC评分,而验证数据库只记录了CAM-ICU评分。
通过文献概要、临床医生指导和数据库探索,确定了模型的预测变量。提取的变量包括患者的人口统计学特征、既往史和共患症、实验室检查、使用药物及其他治疗、护士文档和生理监测指标等,所有记录时间精确到分钟。模型中使用的所有变量在时间上都与用于评估结果的数据有明显的区别。采用Python进行所有分析。
从处理后的数据中创建预测特征。分类变量被独立编码成单个特征,部分为了简化进行组合处理。对于住院期间多次出现的定量变量,计算其中心趋势和方差。对于呼吸频率、心率、血压或氧饱和度等高频变量,使用Python tsfresh 包计算诸如傅里叶变换系数等复杂特征。使用逻辑回归、随机森林和梯度提等三种机器学习算法升来分析模型特征。
通过三个指标做评估模型性能:受试者运行特征曲线下面积(AUC),精确度和召回率曲线下的面积(或平均准确率)和布里尔分数或校准曲线。分析预测变量与谵妄风险之间的关系强度。在验证数据库上评估模型性能。
患者纳入和排除细节的流程图见上图2,人群特征详见表1。首个24小时模型的队列包括开发数据库中全部18,305名住院患者,其中2,536个(13.9%)被标记为谵妄阳性。在验证数据库1中,共鉴定了5,299名住院患者,其中768个(14.5%)为谵妄阳性,在验证数据库2鉴定了36,194名住院患者,其中5,955个(11.9%)为谵妄阳性。在所有数据库中,谵妄阳性患者的APACHE IV评分中位数和矫正前的死亡率显著较高。
对于动态模型的开发队列包括了22,234名住院个患者,其中3,791个(17.0%)标记为谵妄阳性,18,443个(83.0%)标记为阴性。在验证数据库1中,共识别出6,166名住院患者,其中994个(16.1%)为谵妄阳性,5,172个(83.9%)为阴性;在验证数据库2中,共识别出28,440名住院患者,其中5,955个(20.9%)为谵妄阳性,22,485个(79.1%)为阴性。
所有预测性能指标总结在图3中。开发数据库中AUC(95%CI)为0.785(0.769至0.801),在验证数据库1中成功验证(AUC为0.796),在验证数据库2中也验证成功(AUC为0.810);平均精确度在开发数据库中为0.384(0.357至0.411),在验证数据库1中为0.389,在验证数据库2中为0.475。平均布里尔分数在开发数据库中为0.102(0.097至0.108),在验证数据库1中为0.105,在验证数据库2中为0.110。
总体而言,动态模型性能优于首个24小时模型(图4)。动态模型的平均AUC(95%CI)为0.845(0.831至0.859),并在验证数据库1(AUC为0.804)和验证数据库2(AUC为0.838)中得到验证。在开发数据库中,平均精度为0.590(0.566至0.613),而在验证数据库1中为0.449,在验证数据库2中为0.593。在开发数据库中,平均布里尔分数为0.111(0.106至0.116),在验证数据库1中为0.165,在验证数据库2中为0.132。
将机器学习应用于大型数据库,成功开发并外部验证了一种准确预测ICU谵妄的新方法,有助于识别谵妄的高风险个体并提前进行干预。
该研究利用大型临床数据库,开发两个新的ICU谵妄预测模型,且在两个外部数据库上均得到了验证。以往研究中确定的大多数预测特征(例如年龄、机械通气、疾病严重程度[APACHE、SOFA]、苯二氮平的暴露)在该模型中得到了确认。
与以往研究相比,该研究有着非常明显的优势。以往报道的高预测性能的研究使用的是静态模型,无法在特定时间点预测谵妄发作。而该模型旨在动态预测未来12小时内的谵妄发作,可能比其他预测模型更具敏感性,能提前对即将出现谵妄高风险的患者实施有明确的目的性的预防的方法,更好地降低谵妄的危害。同时,该研究使用的数据库比以往研究的人口样本均更大,在多样化人群上获得的模型结果可能更具有普适性。此外,所使用数据库的公开性为其他研究组评估模型的可重复性提供了有利条件。
该研究具有一定的局限性:尽管该研究评估了谵妄与一系列不同暴露变量之间的关系,但无法确定其因果关系;该研究几个数据库中观察到的谵妄发生率低于其他类似研究,这可能由于该研究排除了早期发生谵妄的患者;患者的临床状态的记录时间间隔存在一定的差异,谵妄筛查频率存在不一致性,数据库中某些预测变量可用性较低或缺失,都可能对结果产生偏差。