Niv Ad, et al. Comparison of EuroSCORE II, Original EuroSCORE, and The Society of Thoracic Surgeons Risk Score in Cardiac Surgery Patients. Ann Thorac Surg 2016
背景:EuroSCORE II的开发是为了反映心脏手术的最新数据集和基于证据的改进。而在美国,由于STS评分对于预后有相当高的价值,故其应用更广泛——尽管其有时不那么用户友好,且在一些特定的心脏手术中不适用。本研究比较了EuroSCORE II与EuroSCORE I以及STS风险评分对于手术死亡率预测的精确性。 方法:本研究前瞻性收集了单中心自2001年来所有心脏手术病人的数据共11788例。同时有一部分病人没有用STS模型评估,因此只比较了EuroSCORE II与EuroSCORE I,共5880例。采用受试者工作特征分析来判断各评分系统对手术死亡率的预测能力。 结果:观察到的手术死亡率为1.8%。STS评分,EuroSCORE II 以及EuroSCORE I的平均预测死亡率分别为2.7%,3.3%以及7.8%。三者的曲线下面积分别为0.844,0.819以及0.846。在单独比较EuroSCORE II与EuroSCORE I的分析中,两者风险评分显著相关(r=0.83, p<0.001)。然而,对于手术死亡率的预测(观察值为4%),EuroSCORE II的绝对预测能力以及诊断能力(预测值 5.8%, 曲线下面积 0.754)都要优于EuroSCORE I(预测值12.5%, 曲线下面积 0.688)。 结论:相较EuroSCORE I会很大程度高估死亡率,EuroSCORE II对手术死亡率的预测能力更好。EuroSCORE II与STS风险评分相比更胜一筹。EuroSCORE II可用于评价多种心脏手术,在复杂手术中提供了比STS评分更多的灵活性。对于复杂心脏手术病人,应该考虑用EuroSCORE II来计算接受手术的风险分数。 临床上,为预测病人接受心脏手术后的结局,会应用到许多风险评估模型。大多数模型纳入了手术死亡率,这一指标也被认为是衡量心脏手术护理质量的标准之一。STS评分与EuroSCORE就是两种临床上被用于预测病人心脏手术后并发症风险的模型。这些模型帮助临床医生在术前评估病人是否适合接受手术治疗。心脏手术的风险预测模型不仅有助于评估特定临床因素对结果的影响,而且有助于治疗选择、病人咨询、术后结果的比较和质量改进。 STS评分在美国应用更广,其对于短期及长期死亡率的风险预测十分有效。同时,其可对包括中风、住院时长、肾衰竭等多种结局进行风险预测,十分全面。STS风险评分由STS网站计算得出,并且随时间不断调整以提高精确性。然而,其只能用于以下特定的手术病例:单纯CABG,单纯AVR,单纯MV置换,单纯MV修复,CABG合并AVR,CABG合并MV置换或修复。由于这个短板,STS评分不能用于还未纳入的如房颤的外科消融迷宫手术或双瓣手术等其他心脏手术风险的评估。 EuroSCORE原有的版本(这里称为EuroSCORE I)由一个包括1995年到1999年间超过19000例心脏手术病人的欧洲数据库的数据开发得出,大多数病人接受冠脉手术,约三分之一的病人接受瓣膜手术。在发表后数年间,EuroSCORE系统在欧洲、北美和亚洲被广泛接受,被用于评估手术风险,改善手术预后。然而,在其应用随后的十年中,心脏手术临床技术的进步导致EuroSCORE I实际上高估了部分低风险病人的手术风险而低估了某些高风险病人的手术风险。 EuroSCORE I其他的缺陷包括未将肝功能纳入考虑,纳入血肌酐而非清除率作为肾功能的考量等等。EuroSCORE I还被报道高估了AVR病人围手术期的死亡风险。由于这些缺陷和限制,2012年对EuroSCORE I进行了修订和升级,发不了EuroSCORE II。新版适用于更多手术,并且较STS评分纳入更少的变量,从而使其应用更加方便。然而,仍有一些证据表明其评估手术死亡风险的能力可能不如EuroSCORE I和STS。 本研究的目的在于比较EuroSCORE II与I以及STS评分对特定手术(只做CABG,只做瓣膜,CABG合并瓣膜)预后的预测效果。另外,对于STS评分不能预测的手术,比较EuroSCORE II与I的预测效果。相应结果可以帮助临床医生对特定手术选择最为合适的风险评估方案。
按手术分组的ROC与AUC
本研究中,EuroSCORE II预测术后死亡率的准确性要优于EuroSCORE I,而与STS相近。而这两项预测的结果也与本中心真实观察到的死亡率相近,而EuroSCORE I则显著高估了死亡率。而在STS评分不适用的情况下,EuroSCORE II预测死亡率的能力也要优于EuroSCORE I。具体如上图和表所示。 STS评分可作为预测其纳入变量与手术死亡率关联的有力工具。最近一项研究检验了在STS风险评分2.73版本中新纳入的变量。结果表明,即使调整了已经囊括的风险因素后,新增的变量仍然与术后死亡率显著相关。另一项研究表明,在TAVI中,STS评分也要优于EuroSCORE I和EuroSCORE II。同时有报道称,在因主动脉狭窄接受AVR的病人中,低风险病人STS更优,高风险病人EuroSCORE II更优。这些研究与我们的结果相符,即STS评分与EuroSCORE II在预测死亡率风险上能力相近,尽管STS评分有时可能更好一些。 相较EuroSCORE I,II新增了一些变量,如肌酐清除率,肝功能等指标,同时重新定义了一些变量,调整了一些变量的权重。EuroSCORE II是基于超过22000例病人的数据提出,但其是否解决了EuroSCORE I中瓣膜病人代表性低的问题还上不明确。源数据中病人的组成以及与真实人群的差异可能导致评分系统产生误差。同时,即使在现阶段,也并非所有与手术术后死亡率相关的危险因素都得到了充分的认识,因此,评分系统对于病人整体风险的考虑始终只是局限性的,也因此会导致病人实际风险的高判和低估。也有一些研究表示EuroSCORE II对于死亡风险的预测并不如EuroSCORE I和STS。 另外值得注意的是,评分系统的适用性可能与地域有关。如一项巴基斯坦的研究表明对于仅进行瓣膜置换手术的病人,II要优于STS,但合并换瓣及CABG的病人,STS则更优。由于不同地域人种构成,收入水平,社会影响的不同,相同的评分系统带来的结果也未必类似。 本研究表明II并未像I那样高估了手术死亡率的风险。由于II最近提出,其反映了近年来诊疗过程的进步与发展。尽管如此,其仍有一些显著的缺陷。例如,其并未将年龄这一因素合理的考虑,因此,对于年龄超过70岁的病人,II可能并不适用。同时,其也并未考虑例如主动脉钙化的程度以及冠脉病变受累的范围等情况,而这两个因素在临床中往往尤其重要。最后,风险评分的准确性可能存在性别差异,如有研究发现女性患者的风险评分比男性患者的风险评分更准确。 研究局限 首先,EuroSCORE只能用来预测手术死亡率,而STS则可预测更多其他结局,因此只研究其对死亡率的预测可能会降低其在临床过程中真正的效力。另外,STS只能预测特定的手术,而EuroSCORE则应用范围更广,两者能比较的数据有限。同时,STS评分系统处于始终更新的过程,而EuroSCORE只更新过一次。本研究中STS评分的获取都是在网站上最新的版本计算得出,由此也可能带来偏倚。最后,本中心的数据代表了一个大且有经验的心脏中心的数据,观察到的死亡率也是相对较低的。即使我们中心的机构观察结果低于预测值——这在风险预测中并不罕见——但没有迹象表明这种影响在某种程度上对一个风险模型与其他模型的表现产生了不平衡的影响。这种影响在所有的模型中应该是一致的。因此,即使在我们单中心对各模型进行比较也可以提供有效的结果。且多中心的结果一致显示STS风险评分优于EuroSCORE II,而EuroSCORE II则优于EuroSCORE I。这些结果的一致性也证明了本心并没有因为外科医生的专长而产生不同的影响,导致出现不一致的结果。
译者:夏良涛