使用机器学习开发和内部验证术后谵妄预测模型: 一项老年手术患者的前瞻、观察性临床队列研究
本文研究目标是使用前瞻性临床队列评估机器学习方法在预测术后谵妄方面的性能。
背景:本文研究目标是使用前瞻性临床队列评估机器学习方法在预测术后谵妄方面的性能。
方法:本研究分析了一项观察性队列研究的数据,研究对象为 560 名择期重大非心脏手术无痴呆的老年患者(≥70 岁),使用混淆评估法明确术后谵妄的发生率,并辅以医疗图表审查(N=134, 24%)。在训练样本(80%参与者)中开发五种机器学习算法和一个标准的逐步逻辑回归模型,并使用剩余保留的测试样本做评估。特征集共包括71个潜在的预测因子形成共识,通过选择一组较小的 18 个特征集,这个特征集不受患者要不要进行术前精神情况测量的影响。
结果:与选定的特征集条件(AUC 范围,0.53-0.57)相比,在大特征集条件(AUC 范围,跨算法范围为 0.62-0.71)中,受试者工作特征曲线 (AUC) 下的面积更高。谵妄者具有中等 AUC 值(范围,0.53-0.68)。在全特征集条件下,梯度提升、交叉验证逻辑回归和神经网络等算法(AUC=0.71, 95%CI: 0.58–0.83)与使用传统逐步逻辑回归开发的模型(AUC=0.69, 95%置信区间 0.57–0.82)相似。
结论:本研究开发了用于术后谵妄的机器学习预测模型,其表现与传统的逐步逻辑回归相当,提示对于谵妄的精准难预测仍有待于进一步提升。
谵妄是 65 岁以上成年人最常见的术后并发症,在择期大手术的发生率为 15-25%。发生谵妄罹患短期或长期的临床并发症及痴呆症的风险更大。谵妄预测算法能够准确的通过谵妄风险在术前对患者进行分层,以改善患者护理,降低不良预后的风险。既往已有研究提出多种方法预测谵妄,但很少有研究采用机器学习 (machine learning, ML) 算法。数据丰富时机器学习方法是最佳的应用选择。然而,要重点考虑的是ML 算法是不是能够有效地应用于较小的数据集,在谵妄等疾病的临床队列研究中更为常见。本研究的目标是在一项严格的、特征明确的、前瞻性的、观察性谵妄队列研究中确定预测谵妄的最佳 ML 方法,并将其与传统的统计预测模型进行比较。
我们分析了关于择期手术后衰老进展研究 (Successful Aging after Elective Surgery,SAGES) 的数据,研究使用参考标准方法来评估术前认知功能和术后谵妄,而这通常在常用的电子病历数据中无法获取。基于先前的工作,我们假设能确定一个 ML 模型来预测谵妄,如受试者工作特征曲线 (AUC) 下的面积大于 0.70,表明诊断准确性良好,表明该 ML 模型具有比逐步逻辑回归模型的 AUC更高,研究进一步尝试通过在特征集中加入术前认知功能的测量以明确该模型能够改善预测性能的程度。
研究人群:可使用英语进行交流,70 岁及以上计划在哈佛附属的两个学术医疗中心接受择期手术,预计住院时间至少为 3 天的患者。纳入的外科手术包括:全髋或膝关节置换术;腰椎、颈椎或骶椎椎板切除术;下肢动脉搭桥术;开放式腹主动脉瘤修复术;开腹或腹腔镜结肠切除术。排除标准:痴呆、谵妄、过去 3 个月内住院、绝症、失明、重度耳聋、精神分裂症或精神病史以及酗酒或戒断史的病人。2010 年 6 月 18 日至 2013 年 8 月期间,共有 560 名患者符合所有入选标准。
数据收集:参与者在手术前大约 2 周在家中接受基线 个月对所有关键研究变量(包括谵妄评估)进行可靠性评估和标准化。其中研究临床医生审查医疗记录以收集有关手术、麻醉类型和维持的时间、异常实验室结果、基线诊断、谵妄的发展、谵妄的诱发因素(如,药物、医源性事件或导管)、术后并发症的信息,对 10% 的图表子集进行重复提取进行可靠性检验。
谵妄的评估:谵妄评估需要 10-15 分钟,包括每日简短的认知测试、 谵妄症状访谈 (DSI),以及从术后第一天到出院进行的家庭和护士访谈。谵妄使用混淆评估方法 (the Confusion Assessment Method, CAM) 进行评级,CAM 是一种标准化方法,既往研究报道具有高灵敏度 (94–100%) 和特异性 (90–95%)。 SAGES 的评分者间可靠性很高(71 个配对评分中的 kappa 统计值 = 0.92)。谵妄症状访谈(Delirium Symptom Interview, DSI) 用于评估 CAM 症状,即使用既定的图表审查方法来捕捉访谈之间的谵妄症状。如果满足 CAM 或图表审查标准,则患者被归类为谵妄。使用该程序约 83% 确定诊出的病例由谵妄评估(其中 31% 也通过图表审查确定)所确定,17% 谵妄病例是通过图表审查确定的,鉴于谵妄的总体发生率为 24%,这在某种程度上预示着 CAM评估谵妄的发生率为 20%,而图表审查评估为谵妄的发生率约为10%。
预测变量集的识别和形式化 我们经过审查病历收集外科手术、麻醉类型和维持的时间、基线诊断和合并症、异常实验室结果、谵妄的发生、谵妄的诱发因素(如药物、医源性事件、导管)或身体被束缚、术后并发症和并发疾病。我们确定了预测模型中使用的特征集所需潜在的预测因子,包括术前变量、人口学特征、生活方式、认知功能、身体功能、心理社会因素、虚弱、感觉功能、医疗条件和实验室值等变量作为完整功能集,同时特征集中的缺失数据将通过链式方程进行多重插补。除了使用完整的特征集之外,还确定了一个预测变量数量的选定特征集。
18 个预测因子最终集合的分析均使用三个重叠的特征集进行:(1)由专家小组使用迭代过程选择的选定特征集(q = 18 个特征); (2) 选择的特征集加3MS(q=19个特征);(3) 完整的特征集 (q = 71个特征)
机器学习算法和比较统计预测模型 用于预测谵妄的机器学习算法包括交叉验证逻辑、梯度提升、神经网络、随机森林和正则化回归(Lasso 回归和岭回归)。此外,研究中使用两种集成方法评估模型性能,两种策略比较 ML 算法与谵妄预测的标准方法。首先,使用标准的逐步逻辑回归评估预测;其次,使用先前发布的住院内科患者谵妄风险预测规则来获得用于模型测试的 SAGES 样本做谵妄的预测。
模型分析比较 为实现ML算法,将 SAGES 样本分成用于模型推导的训练集 (80%) 和用于模型验证的测试集 (20%)。根据谵妄状态对训练/测试集的随机分配进行分层。对于 ML 模型,进行重复的 k 折交叉验证(k = 4, 10 次重复),通过基于训练集中 AUC 的优化来确定最佳模型参数。根据以下标准在测试集中基于性能的比较模型:AUC、敏感性、特异性、阳性预测值 (PPV)、阴性预测值 (NPV)、检出率和平衡准确度。
为了跨模型比较这些性能特征,将发生率设置在25%,与样本中的24%发生率相似,根据谵妄发生率与ML预测的谵妄比例进行对照生成校准曲线。
所选特征训练集和测试集之间的效应差异都没有超过0.15,远低于小效应的传统阈值。所有特征的平均效应大小为 0.07。根据设计谵妄的发生率在整个样本 (24%)、训练样本 (24%) 和测试样本 (23%) 中是恒定的。
characteristic,ROC) 曲线分别是选定的、选定且包含改良微型精神情况检查的(modified mini-mental status examination,+3MS) 和完整的功能集。在选定的特征集下,所有模型的表现相当且接近主对角线,表明相对于机会的预测较差。这些模型通过增加认知表现的衡量标准 3MS(b)而得到一定的改善,其中最高的AUC是使用完整特征集(c)观察得到的。
表 2 总结了预测建模的详细结果。表中总结并描述了在这些训练数据中成功预测谵妄的算法,包括接收者操作特征曲线下的面积(AUC 和 95% 置信区间)(假如慢慢的出现随机病例和随机对照,病例的概率会有更高的预测值)。
图 1 不同机器学习 (ML) 算法对谵妄预测的接受者操作曲线 (ROC) 的比较;a 不包含3MS在所选特征集中时的 ROC 曲线MS 包含在所选特征集中时的 ROC 曲线;c 完整特征集的 ROC 曲线 三个重叠特征集中预测谵妄的机器学习算法比较
3MS,改良的微型精神情况检查; AUC,受试者工作特征曲线下面积; CI,置信区间;
图 2 小提琴图显示了整个 ML 模型和逐步逻辑回归的谵妄概率分布。除了数据中位数的标记和指示四分位距的框(如标准箱线图)之外,这些小提琴图还显示了非谵妄患者(绿色)和精神错乱患者(橙红色)在不同值下数据的核概率密度,水平线%。
与 ML 模型类似,使用逐步逻辑回归的谵妄预测很差(AUC = 0.54;图1a表2),而将 3MS 添加到潜在预测因子集后,逐步逻辑回归显示模型性能有所提高(AUC = 0.68,灵敏度 = 0.42;特异性 = 0.80;PPV = 0.39;NPV = 0.82;图 1b;表2)。图 2 表明对于使用完整数据集的验证数据集(保留样本)中的谵妄/没有谵妄患者的术后谵妄预测概率的范围和分布。没有谵妄患者的分布呈小提琴状,说明预测模型的特异性相比来说较高;谵妄患者的分布呈矩形状,说明所有预测建模方法的敏感性相比来说较低(表 2)。
最后,使用已发布的谵妄预测模型根据谵妄的风险对住院患者进行分类。预测模型根据视力障碍、严重疾病、认知障碍和高血尿素氮/肌氨酸比率发生精神错乱的风险对患者进行分层,除视力障碍外(缺乏特异性),其余都是完整功能集的特征之一。已发布的算法将 59/111 (53%) 的测试集识别为精神错乱,正预测值为 25%,灵敏度为 58%,特异性为 48%,AUC 是 0.55。
使用多种 ML 和标准的统计方法,可以依据在临床中(如入院时)容易获得或收集的最少变量,以中等准确度预测谵妄,研究证明ML 方法可用于开发预测算法,ML预测根据结果得出:谵妄风险低的患者可能趋向于相似的因素,但确实发生谵妄的患者是由各种难以确定的因素所导致,但谵妄本质上是一种复杂的、多因素的状况,预测模型的整体性能和跨人群概括的能力相对有限。样本中当特征集中包含术前认知功能 (3MS) 时,显示预测性更好。
检测谵妄的方法至关重要,因为某些方法敏感性大小不一。开发模型的性能根据所研究的人群及开发和测试谵妄预测模型所包含的因素不同而有很大差异。模型性能在使用 ML 或统计模型预测谵妄的研究中也不一样,AUC 范围从 0.56 到 0.94;本研究的结果(AUC = 0.70)在此范围内。与在其他 ML 谵妄研究中观察到的比率(3-9%)相比,本研究中的谵妄发生率(24%)要高得多,其原因可能是 ML 更适合应用于较大的数据集。
通过术中的脑电监测,既往已有研究开发基于EEG预测深低温停循环(deep hypothermia circulatory arrest, DHCA)心脏手术后谵妄的预测方法,使用爆发抑制占空比(burst suppression duty cycle, BSDC)能够作为早期检测术后谵妄的有效指标,提示BSDC能够准确预测地术后谵妄,而这项研究通过根据临床中容易获得或收集的最少变量,可以在一定程度上完成以中等准确度预测谵妄,证明ML 方法可用于开发预测算法,而当特征集包含大量临床变量时,能够观察到性能进一步改善,证实使用 ML 进行含大量预测因子和高质量数据队列研究的优势。有必要注意一下的是因为方法敏感性不一,检测谵妄的方法至关重要,此外该研究同样也有局限性。首先SAGES 研究虽然是对手术患者进行详细术前评估的最大研究之一,但相比与ML 的大多数数据集小。其次,需注意的是谵妄的预测可能已经通过纳入额外的变量得到一定的改善,为了更好的提高结果的临床适用性,研究者使用的是从临床环境招募的适用于大型多地点临床试验的模型。