广东省人民医院丨利用机器学习预测急性A型主动脉夹层术后重症监护室住院时间

Qiuying Chen,Bin Zhang,Jue Yang(共一), et al. Predicting Intensive Care Unit Length of Stay After Acute Type A Aortic Dissection Surgery Using Machine Learning. Frontiers in Cardiovascular Medicine 2021

广东省人民医院丨利用机器学习预测急性A型主动脉夹层术后重症监护室住院时间
摘 要
背景:急性A型主动脉夹层患者通常在术后转入重症监护室(ICU)。ICU住院时间(ICU-LOS)延长与更高水平的护理和更高的死亡率相关。我们旨在开发和验证预测急性A型主动脉夹层术后ICU-LOS的机器学习模型。

方法:纳入2016年9月至2019年8月术后转入ICU的急性A型主动脉夹层患者353例。将患者随机分为训练数据集(70%)和验证数据集(30%)。收集每例患者的84个术前和术中因素。根据四分位间距将ICU-LOS分为4个区间(〈4、4-7、7-10、〉10d)。采用Kendall相关系数确定ICU-LOS的相关因素。开发了5种经典分类器,朴素贝叶斯、线性回归、决策树、随机森林和梯度增强决策树来预测ICU-LOS。使用曲线下面积(AUC)评价模型的性能。

结果:患者平均年龄51.0±10.9岁,男性307例(87.0%)。确定了ICU-LOS的12个预测因子,即D-二聚体、血清肌酐、乳酸脱氢酶、体外循环时间、空腹血糖、白细胞计数、手术时间、主动脉阻断时间、有马凡氏综合征、无马凡氏综合征、无主动脉瘤和血小板计数。随机森林产生了最高的性能,训练和验证数据集中的AUC分别为0.991(95%置信区间[CI]:0.978-1.000)和0.837(95%CI:0.766-0.908)。

结论:机器学习具有预测 急性A型主动脉夹层ICU-LOS的潜能 。该工具可以改善ICU资源的管理和患者出入量,并可以更好地与患者及其家属沟通。

引 言

急性A型主动脉夹层是全球死亡的主要原因之一,前48 h内每小时自发死亡率为1-3%[1]。因为死亡率很高 ,需要立即手术。术后,为重症监护室(ICU)患者提供的医疗护理耗时耗力,费用昂贵。患者的ICU住院时间(ICU-LOS)差异很大。准确预测ICU-LOS在急性A型主动脉夹层中具有重要意义,尤其是在人口老龄化和心血管手术不断增加的背景下。它是解决能力管理、追索权规划和人员配备水平的有效解决方案之一。

虽然有预测ICU-LOS的模型,但它们依赖于常规的统计方法,  可能会限制它们在具有多个变量和样本的更大数据集中的应用和性能。最近,机器学习等计算方法由于能够预测事件发生和辅助临床决策而越来越引起人们的关注。机器学习是指基于计算机科学的一系列方法,使用数据中的模式来识别或预测结果。它提供了一组强大的工具来描述感兴趣的特征和结果之间的关联,特别是当它们是非线性和复杂的时。当变量数量巨大时最好使用,过度拟合(普遍性差)可能是传统统计方法的问题。因此,我们的目标是根据A型主动脉夹层术后患者的术前和术中数据,设计和评价预测ICU-LOS的监督机器学习模型。

材料和方法
患者和数据来源

本回顾性研究获得了我们机构审查委员会的批准,并免除了患者的知情同意。整个队列为2016年9月至2019年8月在广东省心血管研究所诊断为急性A型主动脉夹层的患者。所有的患者都是通过CT和经食管超声心动图确诊的。手术后,患者立即转入ICU。患者的特征是术前(包括人口统计学、临床表现、用药史、既往史、生命体征、实验室检查结果和辅助检查)和术中(包括手术类型、手术时间、  手术技术和术中观察)变量。由经验丰富的医生和护士输入数据,并由专门经过培训的技术和医疗团队对每项记录进行稽查。对于夹层动脉瘤的分型,我们采用首都医科大学附属北京安贞医院提出的Stanford分型的改良版。Stanford A型根据 主动脉弓病变。  C型定义为以下之一:(1)原发性内膜撕裂位于主动脉弓或主动脉远端,夹层逆行至升主动脉或主动脉弓近端;(2)主动脉瘤存在于主动脉弓或主动脉远端(直径> 5 cm);(3)头臂动脉受累;(4)马凡氏综合征引起。S型定义如下:原发性内膜撕裂的位置在升主动脉,无任何C型病变。

建模的特征选择

特征选择是建立机器学习模型的一个基本但重要的过程。它意味着通过减少用于构建模型的特征数量来在一定程度上减少基数。在本研究中,排除了缺失值超过20%的特征。数据清理、采样、预处理后有大量变量。因此,我们使用Kendall秩相关系数来选择显著特征。确定了Kendall’s tau排在前25%的特征。

模型开发、评价和验证

我们根据ICU-LOS的四分位间距将其分为4个区间(〈4、4-7、7-10和〉10d)。开发了5个具有5倍交叉验证的经典机器学习模型来预测ICU-LOS,即朴素贝叶斯(NB)、线性回归(LR)、决策树(DT)、随机森林(RF)和梯度增强决策树(GBDT)。总体而言,将原始数据集随机分为训练(247例,70%)数据集和暂停验证(106例,30%)数据集。使用曲线下面积(AUC)和相关的95%置信区间(CI)测量机器学习模型的分类性能,通过自助法进行100次。在开源Python 3X和项目Jupyter版本1.2.3(Anaconda,Inc.,https://jupyter.org/about)。机器学习模型的描述如下所示。

Naive 贝叶斯

基于Bayes定理,NB是一个概率分类器,具有变量或特征间独立性的强假设。具有坚实的数学基础和稳定的分类效能。它需要很少的参数来估计,并且对缺失数据不敏感。该算法相对简单,错误率小。分类原则是基于一个对象的先验概率,利用Bayes公式计算后验概率,即每个对象属于特定类的概率。选择具有最大后验概率的类作为对象所属的类。

线性回归

LR是一种广义线性回归算法。LR模型的自变量可以接受广泛的数据类型,包括连续变量和离散变量。LR模型易于训练,其参数易于解释,因此广泛应用于生物医学领域,尤其是流行病学。该模型使用s形函数预测因变量中每个类别概率的logistic转换。记录的几率以二进制方式对数据点进行分类。除共轭梯度下降外,用于模型的λ参数为1.0E-8。应用共轭梯度下降降低模型中的成本函数。基本上,在分类的情况下,学习的LR分类器实际上是一组权重θ。当有试验样品输入时,对重量和试验数据进行加权。LR的配方如下所示。

在分类中使用DT模型有许多优点

问题,如低计算复杂性、便利性和效率。它可以处理具有不相关特征的数据,构建易于解释和理解的规则。DT由节点和定向边缘组成。有两种类型的节点:表示特征或属性的内部节点和表示类的叶节点。一般而言,DT包含一个根节点、几个内部节点和几个叶节点。DT可以被认为是if–else规则的集合。从根节点到叶节点的每个路径构造一个规则。内部节点的特征对应于规则的条件,叶节点对应于规则的决策结果。DT的路径是相互排斥但完整的;也就是说,每个实例只由一个路径或一个规则覆盖。DT分类器学习的目的是生成具有较强泛化能力的决策树,以处理看不见的实例。

随机森林

RF是一种基于DT的集成学习算法。它非常简单,易于实现,计算开销非常少,但在分类和回归中表现出惊人的性能。因此,RF被赞扬为一种代表。集成学习技术水平的方法。RF将DT和引导的集成应用于样本训练数据和每个树中的拆分分支。每次拆分的目标是最大化从每个树的每个样本中的每个随机特征获得的信息。在评估数据点后,得到的类是所有树的结果模式。简而言之,每个DT都是一个分类器,因此对于输入样本,N个树将有N个分类结果。RF整合了所有分类投票结果,并将投票最多的分类指定为最终输出。

梯度增强决策树

Boosting算法的工作机制是用训练数据集的初始权重训练弱学习者,并根据弱学习者的学习错误率更新训练样本的权重,使前一个弱学习者学习错误率高的训练样本点的权重变得更高。然后,这些错误率高的点在弱学习者中得到了更多的关注,并利用调整权重的训练集来训练弱学习者重复这个过程,直到弱学习者的数量达到预先规定的数量T,通过设定的策略将T弱学习者整合,得到最终的强学习者。在知道了Boosting方法后,我们可以将Boosting方法与DT相结合,得到GBDT。

结 果
患者特征

共353例患者(307例男性和46例女性;平均年龄51.0±10.9岁)纳入急性A型主动脉夹层术后转入ICU的患者。这些患者被随机分配到训练数据集(n = 247)和验证数据集(n = 106)。患者的中位ICU-LOS为7.7天。4例分别于入ICU后2.9、5.0、19.0、44.4d后死亡。2例死于感染性休克,1例死于凝血机制障碍广泛出血,1例死于多器官功能障碍综合征。除主动脉夹层手术外,4例患者同时接受血液透析治疗,其中1例需气管切开。

初始预测变量包括每例患者的84个术前和术中特征。经过数据清理、取样和预处理,排除了11个相关性较低的变量,73个变量(58个术前特征和15个术中特征)最终纳入分析。补充表1显示了训练和确认数据集之间基线特征的比较。除呼吸频率外的所有特征在两组间无统计学差异。

特征选择

通过Kendall相关系数筛选出14个特征。排除两个临床不相关变量后(静脉插管位置:上/下腔静脉插管位置:右心房/腔静脉),最终提取12个特征构建模型,即9个术前特征和3个术中特征(图1)。排序如下:D-二聚体(τ = 0.247)、血肌酐(τ= 0.209)、乳酸脱氢酶(τ = 0.171)、体外循环时间(τ = 0.170)、空腹血糖(τ = 0.156)、白细胞计数(τ = 0.154)、手术时间(τ = 0.150)、主动脉阻断时间(τ = 0.149)、有马凡氏综合征(τ = 0.133)、无马凡氏综合征(τ =-0.133)、无主动脉瘤(τ =-0.149)、血小板计数(τ =-0.214)。

机器学习模型预测ICU-LOS的性能

不同机器学习模型的预测性能如图2所示。

该模型在预测分类ICU-LOS方面具有不同的能力。在5种分类器中,RF达到了最高的性能,训练数据集中的AUC为0.991(95%CI:0.978-1.000),验证数据集中的AUC为0.837(95%CI:0.766-0.908)。图3描绘了机器学习模型构建的卡通。

讨 论

研究表明,机器学习分类器可以准确预测急性A型主动脉夹层术后患者ICU-LOS。随机森林预测ICU-LOS最好。模型中包括的12个预测因素通常在医院容易获得。D-二聚体、血肌酐、乳酸脱氢酶是术前预测因子的前3位,体外循环时间、手术时间、主动脉阻断时间是术中预测因子的前3位。

患者的选择决定了各自研究中构建的模型的适用性。尽管存在预测ICU-LOS的模型,但大多数模型集中于心脏手术患者,因此可能不适用于主动脉夹层手术患者。logistic回归是最常见的模型,AUC  范围为0.60 -0.84.在这些模型中预测ICU-LOS的临界值差异很大,例如24、55和72h。与以前的回归模型相比,使用新的机器学习方法,包括尽可能多的可能影响ICU-LOS的因素。因此,机器学习模型的准确率可以高达99%。本研究可能为机器学习在主动脉夹层领域的应用铺平道路,促进该课题的进一步工作。

确定显著影响ICU-LOS的风险因素能够制定更有效的计划来缩短ICU持续时间。许多研究评价了心脏手术后ICU-LOS的风险因素,包括手术类型、急诊状态、肾功能不全、肌酐、性别、年龄、左心室功能、心肌梗死、体外循环时间、主动脉阻断时间和既往心脏手术。我们发现血清肌酐、乳酸脱氢酶、体外循环时间、主动脉阻断时间等以往已有报道。此外,我们确定了一些因素,如马凡氏综合征和主动脉瘤。马凡氏综合征和主动脉瘤是风险因素并不意外,因为两者均可能需要更广泛的手术、更长的手术时间和更长的主动脉阻断时间。然而,我们没有报道一些因素被认为是主动脉夹层预后的关键预测因素,如伴随灌注不良和术前通气支持,这可能损害预测模型的效力。

通过使用不同的机器学习方法作为每一种机器学习方法,对于不同的数据形式都有其优缺点。在选择分类模型,我们使用NB、LR、DT、RF和GBDT用于建模。NB和LR模型需要高度独立性,但我们的大多数特征是相互关联的虚拟变量。因此,两种模型在预测ICU-LOS方面的性能较差。DT模型具有分类精度高、模式生成简单、对噪声数据具有良好的稳健性等优点。RF是一种监督学习算法,是一种基于DT模型的集成学习算法。在分类和回归方面表现出优异的性能。GBDT模型是DT集成学习的结果,它结合了多机器学习者的好处。我们发现这三种模型具有令人满意的预测性能,RF最佳。这些结果证实了机器学习过程的探索性,需要迭代和探索性实验,以便发现能够针对特定问题达到目标精度的模型设计。

然而,有一些局限性应该得到承认。首先,使用最初并非设计用于进行分析的电子病历对数据进行回顾性分析。  但是,这证实了我们的分析;证实了其在现实世界临床环境中的实用性。其次,该模型未经外部验证,可能无法反映,也可能限制普遍性。需要进一步研究来解决该模型的可行性。最后,机器学习模型的复杂性和抽象性使得很难解释,这可能会阻碍其可重复性和临床应用。预计将开发先进的技术,使机器学习的内容更容易被理解。

大数据分析的机器学习彻底改变了进行心血管疾病研究的传统方式。机器学习,为数据分析和成像解释提供了超出所提供的创新方法。自动处理大型多维和多变量数据的能力最终可能暴露特定特征和结局之间的新相关性,并确定不明显的趋势和模式。随着患者数据量的不断增长和自动化算法应用在其他医学领域,人工智能将很快成为临床医学不可或缺的一部分。

广东省人民医院丨利用机器学习预测急性A型主动脉夹层术后重症监护室住院时间

广东省人民医院丨利用机器学习预测急性A型主动脉夹层术后重症监护室住院时间

本篇文章来源于微信公众号: CardiothoracicSurgery

(0)
PipitaPipita
上一篇 2022-01-24
下一篇 2022-01-28

Warning: Undefined array key "related_news" in /var/www/html/www.pita.ltd/wordpress/wp-content/themes/justnews/single.php on line 175

相关文章