脓毒症(sepsis)是人类面临最凶险的重大公共卫生问题之一。早期预测与早期干预可改善其预后。我们旨在于使用机器学习算法开发一种兼具高预测性和临床可解释性的脓毒症发病风险早期预测模型。
本研究使用的数据集由三个分别收录了美国三家不同医院重症监护室(intensive care unit, ICU)患者数据的数据库组成。其中两个数据库公开用于模型开发(离线),另一个用于模型测试(在线)。
经筛选,本研究纳入了40336例来自两个模型开发数据库和24819例来自模型测试数据库的患者,收集患者入ICU时长<40h的临床数据。根据第三版脓毒症定义和诊断标准(Sepsis-3)来确诊脓毒症是否发生。
将每小时构建312项特征变量录入时相机器学习模型。在患者入ICU时长<6h期间,模型将估算出每小时脓毒症发作的可能性,并通过三个时间相位临界值进行二进制预测。在内部验证集中,相机器学习模型对脓毒症预测能力的效用评分可达0.430,而在测试集中,其效用评分为0.354。即:模型具有较好预测性能。此外,机器学习模型还能直观地解释输入型特征变量对结果预测的影响,即:模型具有较好的临床可解释性。结论时相机器学习模型能实时预测ICU住院患者脓毒症的发病风险,且其预测功能具有较好的可解释性与准确性,这使得其在前瞻性研究中潜力巨大。
脓毒症是指宿主对感染反应失调的而引起威胁生命的器官功能障碍。在ICU患者住院期间,尽早识别脓毒症的风险因子可及时进行早期干预提高临床预后。ICU住院患者临床常用的疾病严重程度评分系统有序贯器官衰竭评分(SequentialOrgan Failure Assessment ,SOFA)和快速序贯器官衰竭评分(quick Sequential Organ Failure Assessment,quick SOFA)。但与这些传统的ICU风险评分相比,机器学习模型更具有预测性能。然而,要将时相机器学习模型普遍的应用于临床实践亟需解决以下问题。
1)泛化能力:本研究尚缺乏统一的数据集(如:患者队列,临床变量)、预测设置(如,脓毒症的临床诊断标准,观察窗)和评估指标,这不仅使得我们难以验证机器学习方法在不同队列研究中对脓毒症预测价值,且难以量化其泛化能力。
2)可解释性:相较于传统ICU风险评分,机械学习方法更具有预测性能和完善的统计学方法,但由于其操作相对复杂且机制不透明而致临床普及性不强。
在2019年心脏病学挑战赛中PhysioNet/Computing单元,我们对于时相机器学习模型泛化能力问题已制定出了统一的标准。而未解决模型临床普及性不强这一现状,我们旨在于开发兼具准确性与可解释性的模型来实时预测脓毒症发病风险。其中,“准确性”是指验证集中预测性能较好(量化评分高),而“可解释性”是指该模型可提供完全透明的推导机制。
本研究是基于现有数据的二次分析。个人会使用的数据集是完全不可识别的,可以公开获得。美国国家卫生研究院的定义指出本研究不属于人体研究,因而无需机构审查委员会批准。本研究收录了过去十年美国三家不同医院ICU患者的数据。40336例来自其中两个医院组成的模型开发数据库,24819例来自另一医院的模型测试数据库,为防训练过度,模型测试数据库的患者只能被评估一次。这一些数据包含了每例患者的生命体征变量8个、实验室变量26个和人口统计学变量6个,共计40个,计划每小时进行重复收集并根据Sepsis-3的定义方法来进行脓毒症确诊。参考文献[13]附上了可共参详的数据。
本研究采用了Boosting Tree范畴的LightGBM算法来预测患者入ICU时长6小时内,每例患者每小时脓毒症发病风险。在执行LightGBM算法之前,我们针对每一例患者构建了特征工程。为了处理缺失值,我们则采用了最接近一次发生的结转策略(last-occurrence-carry-forward strategy),即:应用某个特定变量的最新值来填补该变量的缺失值。同时,我们将测量频率和最新的测量时间间隔作为额外的特征变量,用于确定特征变量的测量模式。图1中的文本框提供了构建特征工程的更多细节。
将用于模型开发的样本(共40336名患者)随机分为两部分:模型训练集(80%的患者在训练模型中进行5倍交叉验证)和模型验证集(20%的患者)。模型测试集则纳入了24819名患者的数据。为了将LightGBM中的预测可能性转换为二进制的预测决策,我们在内部验证时,设置了基于ICU住院时间(length of stay, LOS)的三个不同的临界值的“时相策略”。图1展示了用于预测脓毒症发病风险的时相机器学习模型的结构体系。我们比较了我们的模型和只具有单一临界值的LightGBM模型。源代码源于早期公开的预测脓毒症的临床数据:
SHapleyAdditive exPlanations (SHAP)法可拿来解释机器学习方法的决策路径,其工作原理是计算出每一个样本中的每一个特征变量的贡献值(Shapley Value),再将特征变量对应的Shapley值相加,从而解释每个特征变量是怎么样影响模型的预测值。
竞赛时主要使用效用评分作为主要评价指标。此外,我们还通过受试者工作特性曲线下面积(areaunder the receiver operation characteristic curve, AUROC)、特异度和灵敏度来评估预测性能。
在模型开发数据集中(共40336名患者),ICU住院期间脓毒症发病率为7.27%,(共计2932名患者)。阳性/阴性病例比为1:54。
图2展示了模型开发数据集中基于ICU住院时间(LOS)的脓毒症的发病率。我们通过划分ICU住院时间,将脓毒症发生率大致归为三个阶段,早期(1~9小时)脓毒症发病率稍高于中期(10~49小时),而晚期(50+小时)脓毒症发病率则快速上升。任意两阶段间的脓毒症发病率具有非常明显差异性(mann-whitneyU检验;p0.001)。因此,在内部验证时,我们根据实例各自所处的时相,将其效用评分最大化,从而计算出预测结果的临界值。
内部验证集上模型的受试者工作特性曲线(独立于临界值)。基于三个特定的时相临界值(早期、中期、晚期分别为0.031、0.026、0.029),计算得出模型的效用值、敏感性和特异性分别为0.430、0.859和0.634。在时相的早期、中期和晚期,分别有10.9%、9.1%和72.2%的病例预测可能性高于相应的临界值。表1比较了我们模型和没有设置时间分段临界值的LightGBM模型在内部验证集上的效用评分的差别。根据结果得出,通过划分不同相位的临界值可以明显提高预测性能。
使用内部验证集中经过训练的时间分段临界值,测得测试集的效用评分为0.354(测试A:0.434,测试B:0.416,测试C:–0.131)。据官方挑战排行榜(截至2019年9月23日)所示,我们所提出的TASP模型能够得到第三名(以没时间分段临界值的常规LightGBM模型获得第四名为依据)。
我们使用SHAP方法来解释训练好的LightGBM模型是如何对每个特定的实例进行预测的,以图3的A和B两部分进行举例说明:其中,红色和蓝色分别代表了危险因素和保护因素,条形长度则代表SHAP值,即特征变量的贡献值。如图3A所示,当患者表现为持续高温(38.56°C)、心率/收缩压比率高(0.9626),则在入院后的短时间内(0.02小时)被转移到ICU,并计算得出高于脓毒症平均发病风险值的高风险值。如图3B中所示,我们模型则计算出了一个低风险值。
我们提出了一个用于实时预测重症监护病房中脓毒症发病的新型机器学习模型—— TASP。该模型在心脏病学挑战赛的的PhysioNet/Computing环节上展示出了良好的预测性能和临床解释能力,即:TASP模型在内部验证集和测试集上都展示出较高的预测性能,效用评分分别为0.430和0.354。因所有特征变量数据采集于ICU,因此该模型适用于ICU患者,并能提高医务工作者的临床决策水平。
我们还发现TASP模型可解释能力上佳。虽然Shapley Value计算出每一个样本中的每一个特征变量的贡献,但是这是基于单一特征变量的,了解这些特征变量相互作用关系则至关重要。而LightGBM模型属于Boosted tree的范畴,我们通过LightGBM算法得出的预测的确切规则。简而言之,每个决策规则可以用决策树中从根茎到枝叶这样一条特定的路径来表示,于是,我们大家可以通过检查每条决策路径所涉及的特征变量,以了解特征变量交互的乘法效应。在补充内容2中我们展示了出现在特定决策路径中特征变量的高频子集的示例。在补充内容4中,我们展示了从训练数据中所得到的LightGBM模型的第一个决策树中的规则子集。
与此同时,我们还探讨了时间分段这一设计的基本原理。如图2所示,脓毒症的发病率与ICU住院时间长短有关。在ICU住院的早期(0-9小时),由于患者的既往病情,脓毒症的发病率略有增加或中等增加;在中期(10-49小时),脓毒症的发病率略有下降,并稳定在低于早期的水平。在住院晚期(50+hr),由于患者基数变少且ICU长期住院患者的病情更重,脓毒症的发病率会急剧上升。这三个阶段的划分也符我们合临床观察的结果。划分这三个阶段的时间节点可以被看作是一组由于患者特征变量和数据协调技术差异性引起在不同的队列中略显差异的超参数。效用评分是预测脓毒症发病风险的“金标准”。该指标采用二元预测结果,针对病例组和对照组我们采用了不同的评分函数,可早期预测病例组脓毒症发病的奖励算法,晚期预测或不能预测病例组脓毒症发病的惩罚算法,以及预测对照组脓毒症发病的惩罚算法。我们可以推测,队列的效用评分与脓毒症的发病率相关(发病率越高,病例组患者越多)。因此,针对特定发病率的患者,我们能够最终靠调整其临界值,对预测可能性进行二分法计算以获得更好的效用得分。因脓毒症发病率受ICU住院时间长短明显影响,在这三个不同的阶段使用不相同的临界值可以明显提高预测性能。
尽管TASP模型拥有非常良好的预测性能和临床解释能力,但它仍有一定的局限性,特别是此研究属于回顾性研究。该模型泛化能力与稳定性亟需进一步系统验证与评估。
脓毒症是ICU患者面临最凶险的疾病之一,是宿主对感染反应失调而引起的威胁生命的器官功能障碍。而国内的研究显示,ICU 中脓毒症的死亡率为 28.7%。是一种致死率高且花费高昂的疾病,早期预测ICU症患者的脓毒症发病风险,能尽早进行干预以提高患者生存率。目前,ICU 患者常用的评分序贯器官衰竭评分(Sequential Organ Failure Assessment,SOFA)和快速序贯器官衰竭评分(quick SOFA)。机器学习技术开发新的风险预测模型,可以对原有模型的性能进行改进。本研究提出的用于实时预测重症监护病房中脓毒症发病的新型机器学习模型—— TASP,拥有非常良好的预测性能和临床解释能力,即:时间分段这一设计十分显著提高模型的预测性能,TASP模型在内部验证集和测试集上都展示出较高的预测性能,效用评分分别为0.430和0.354。因所有特征变量数据采集于ICU,因此该模型适用于ICU患者,并能提高医务工作者的临床决策水平。