基于机器学习的术后肺部并发症风险预测模型构建
钱科1,唐旭1,陈鹏2,李晓理1,陈杰1(通讯作者)
(1、重庆医科大学附属巴南医院麻醉科,重庆 401320;2、厦门市恒智天泽科技有限责任公司,厦门 361012)
【摘要】 目的:构建术后肺部并发症(postoperative pulmonary complications, PPCs)的预测模型并进行验证。方法:回顾性收集2019年1月1日至2021年12月31日在重庆医科大学附属巴南医院实施的头颈胸及上腹部三、四级手术的患者,其中满足纳入排除标准的病例有2157例。数据预处理后,通过循证和临床结合的方式筛选出预测模型的特征变量,基于机器学习技术分别构建Logistic回归模型、梯度提升决策树(gradient boosting decision tree, GBDT)模型和人工神经网络(artificial neural network, ANN)模型。通过比较预测模型的准确度、灵敏度、特异度和曲线下面积(the area under the curve, AUC)等指标,评估三种模型的预测性能。结果:Logistic回归模型、GBDT模型和ANN模型的AUC值,分别为0.823 (95% CI: 0.790~0.855)、0.877 (95% CI: 0.841~0.913)和0.908 (95% CI: 0.878~0.938)。结论:基于机器学习算法构建PPCs风险预测模型具有可行性。在本研究构建的三种PPCs机器学习模型中,ANN模型具有良好的预测表现和临床价值。
关键词:机器学习;术后肺部并发症;风险评估;预测模型
术后肺部并发症(postoperative pulmonary complications, PPCs)是手术后新发的一系列呼吸系统症状的总称,是围术期常见并发症,发生率约2% ~ 39%[1]。不良预后包括延长住院时间,降低远期生存率,甚至直接导致患者死亡。
PPCs风险预测模型可帮助医师评估和筛查PPCs的发生风险,及时实施个体化干预措施,预防和减少PPCs[2]。已有的PPCs预测模型多采用Logistic回归分析的方法建立[3 ~ 5],其理论方法的局限和预测对象覆盖范围的局限[6],影响了临床应用。基于深度学习的人工神经网络(artificial neural network, ANN)和梯度提升决策树(gradient boosting decision tree, GBDT)属于机器学习的典型算法,具有综合性和非线性的特性,能够通过分析包含多个变量的复杂生物学数据,使用迭代学习数据的算法来构建模型,在疾病风险预测领域获得广泛应用[7]。因此,本研究回顾性收集临床数据,通过循证和临床相结合的方式筛选出PPCs的建模变量,基于机器学习算法构建PPCs风险预测模型,并验证其预测效能,旨在寻找一种有良好预测表现和临床价值的PPCs预测模型。
1 资料与方法
1.1 PPCs诊断标准
本研究PPCs诊断标准参照MGS[8]相关定义:①发热≥38℃;②咳嗽、咳痰;③WBC≥11.2×109/L;④术后胸片或肺部CT较术前有明显新增改变;⑤痰培养阳性;⑥临床诊断肺炎;⑦吸空气SpO2低于90%。其中前6条提示肺部感染,术后患者满足4条及以上即可诊断为PPCs。
1.2 一般资料
1.2.1 研究对象
研究通过重庆医科大学附属巴南医院伦理委员会审批,并获得该伦理委员会知情同意豁免。利用医院电子病历系统和麻醉监测系统,回顾性收集2019年1月1日至2021年12月31日在重庆医科大学附属巴南医院实施的头颈胸及上腹部三、四级手术的所有患者2833例。排除标准:⑴年龄≤18岁;⑵妊娠;⑶手术时间≤1小时;⑷门诊手术或手术室外手术;⑸因前次手术出现相关并发症再次手术;⑹局部麻醉下行手术;⑺术后48小时内死亡;⑻前已做气管切开或插管术;⑼合并肿瘤晚期;⑽临床资料严重缺失或数据记录明显异常。最终纳入2157例患者进行研究。
1.2.2 筛选变量
通过检索PubMed、中国生物医学文献系统、中国知网等数据库搜集PPCs相关文献。由3名麻醉科副主任医师对文献进行独立评价,投票归纳出PPCs的20个特征数据,具体如下:①一般特征:年龄、性别、美国麻醉医师协会(ASA)评分、体质指数(BMI)、吸烟、血清白蛋白、血红蛋白、血氧饱和度;②术前合并基础疾病:高血压、严重心脏病(心功III或IV级)、呼吸道感染、糖尿病、慢阻肺、意识障碍;③手术麻醉相关指标:麻醉方式、急诊手术、手术时间、手术部位、术中输液量、术中出血量。研究终点为术后住院期间出现的新发肺部并发症。
1.2.3 质量控制
所有研究人员均经过统一规范培训,严格遵循纳入、排除标准筛选研究对象和进行数据收集,预处理。采用平行双人录入方式对病例数据进行录入并有专人复核。
1.3 机器学习
将筛选后的24个特征数据值进行离散化和归一化处理并赋值,然后组合成新数据集(表1)。依据机器学习建模要求,采用随机抽样方法,以7:3比例将该数据集分为训练集(1510例)及验证集(647例)。
我们通过三种机器学习算法来开发预测模型。Logistic回归模型作为代表线性模型的方法,使用最大似然估计来确定回归系数,从而准确预测二分类变量结果的概率。GBDT是一种迭代的决策树算法,被认为是泛化能力较强的算法,由多颗决策树组成,所有树的结论累加起来做最终答案,是代表基于树分类的方法。ANN是模仿生物神经网络结构和功能的机器学习模型,由一系列不同层次的“神经元”——输入层、隐藏层和输出层——通过权重连接构成,可有效地分析包含多个变量的复杂生物学数据,在许多医学领域取得卓越成就。
绘制预测模型的受试者工作特征(receiver operating characteristic, ROC)曲线,通过比较ROC曲线下面积(the area under the curve, AUC)、准确度、敏感度、特异度,评估三个预测模型的预测性能。
1.4 统计学分析
本研究对数据缺失率高于10%的样本直接删除,低于10%的样本采用缺失森林算法[9]进行填补,生成一套完整的数据用于预测模型的构建。采用SPSS23.0软件包进行统计学分析。连续变量数据以均数±标准差(±s)表示,分类变量数据以计数(百分比)表示;连续变量组间均数比较采用t检验,分类变量组间比较采用x2检验,P<0.05表示差异有统计学意义。
2 结果
2.1 一般资料比较
本研究最终纳入2157例患者,其中出现PPCs的患者有711例,未出现PPCs的患者有1446例。其研究设计流程图见图1。
PPCs患者和正常患者的基线特征比较见表1。统计发现,两组患者在性别、年龄、ASA分级、血清白蛋白、血红蛋白、血氧饱和度、严重心脏病、呼吸道感染、糖尿病、慢阻肺、意识障碍、麻醉方式、急诊手术、手术时间、手术部位和术中输液量等特征之间存在显著性差异。
图1. 研究设计流程图
表1. PPCs患者和非PPCs患者的特征比较(±s或n(%))
特征 | PPCs组(n=711) | 非PPCs组(n=1446) | P值 |
性别(男) | 413(58.1) | 767(53.0) | 0.027 |
年龄(岁) | 62.6 ± 12.3 | 57.1 ± 11.7 | <0.001 |
BMI (kg/m2) | 22.3 ± 2.7 | 23.6 ± 3.1 | 0.153 |
ASA分级 (n(%)) | 0.000 | ||
≤III级 | 398(56.0) | 1011(69.9) | |
> III级 | 313(44.0) | 435(30.1) | |
吸烟 (n) | 297(41.8) | 636(44.0) | 0.330 |
血清白蛋白 (g/L) | 36.3 ± 8.1 | 43.5 ± 7.4 | < 0.001 |
血红蛋白 (g/L) | 117.1 ± 34.6 | 135.4 ± 36.7 | 0.000 |
血氧饱和度 (%) | 94.5 ± 4.3 | 97.1 ± 3.3 | 0.001 |
合并基础疾病 (n(%)) | |||
高血压 | 298(41.9) | 547(37.8) | 0.068 |
严重心脏病 | 25(3.5) | 30(2.1) | 0.046 |
呼吸道感染 | 120(16.9) | 76(5.3) | 0.000 |
糖尿病 | 101(14.2) | 153(10.6) | 0.014 |
慢阻肺 | 181(25.5) | 78(5.4) | 0.000 |
意识障碍 | 135(19.0) | 53(3.7) | 0.000 |
麻醉方式 (n(%)) | 0.000 | ||
全身麻醉 | 617(86.8) | 1142(79.0) | |
区域阻滞麻醉 | 94(13.2) | 304(21.0) | |
急诊手术 (n (%)) | 196(27.6) | 319(22.1) | 0.005 |
手术时间 (min) | 135.3 ± 73.8 | 121.7 ± 66.4 | 0.021 |
手术部位 (n (%)) | 0.000 | ||
上腹部 | 266(37.4) | 1187(82.1) | |
胸部 | 254(35.7) | 105(7.3) | |
头颈部 | 191(26.9) | 154(10.6) | |
术中输液量 (ml) | 2011.3 ± 595.2 | 1748.7 ± 536.8 | 0.002 |
术中出血量 (ml) | 87.6 ± 77.4 | 79.8 ± 65.7 | 0.398 |
2.2 模型评价
本研究采用验证组数据,分别对Logistic回归模型、ANN模型和GBDT模型的预测效能进行评价,见表2。
三种模型的ROC曲线见图2。根据ROC曲线下面积(AUC)值,ANN模型在三种机器学习模型中表现最佳。
通过对模型的评测可以得到对结果(是否PPCs患者)影响比较大的5项分别是:ASA等级,术前合并呼吸道感染,麻醉方式,手术时间,手术部位。
表2. 三种PPCs预测模型预测效能评价指标
模型类型 | AUC (95% CI) | 灵敏度 | 特异度 | 准确度 |
Logistic回归模型 | 0.823 (0.790, 0.855) | 0.621 | 0.804 | 0.731 |
GBDT模型 | 0.877 (0.841, 0.913) | 0.709 | 0.771 | 0.653 |
ANN模型 | 0.908 (0.878, 0.938) | 0.685 | 0.792 | 0.725 |
图2. 机器学习模型的ROC曲线
3 讨论
目前在医学领域,对于多种变量的研究常采用多元线性回归、Logistic回归或Cox回归等传统分析函数以统计和概率的方式筛选主要变量后构建预测模型。但上述方法对资料分布和类型有较为严格的要求,而且由于忽略了其他次要变量隐含的影响,在处理多种变量间的非线性问题时存在一定的局限,影响了预测结果的准确性[6, 10]。与Logistic回归模型相比,机器学习对资料类型和分布无特殊要求,在分析自变量和因变量之间复杂的非线性关系时,能够应用合适的算法挖掘数据间更深层次的隐含规律,捕获处理变量之间多层次、高交互性的非线性关系,建立关联因子模型。这对那些根本不能找到或模拟出准确数学表达公式的变量关系提供了新的思路,适用于多种变量预测模型的构建,在模型预测准确性上存在优势。
本研究显示,基于ANN技术构建的PPCs预测模型,其ROC曲线下面积(AUC)值为三种机器学习模型中最佳者,说明ANN模型预测效能优于GBDT和Logistic回归模型(其AUC分别为0.908,0.877,0.823)。而且ANN模型良好以上(预测准确率>70%,特异性>0.75)的预测性能也使其临床推广应用更具有可行性。
本研究存在一定的局限性。首先,本研究属于回顾性数据分析,分析的准确性依赖于临床资料的完整性和监测数据的种类,往往会带来信息偏倚和选择偏倚。其次,ANN模型虽然进行了内部验证,但尚未在前瞻性的临床随机对照实验中进行外部验证,模型的普适性尚不确定。最后,本研究作为单中心研究,存在因诊疗习惯造成模型过拟合的可能性,故预测模型的外推性有待多中心研究的验证。
综上所述,本研究利用多种数据构建了基于ANN技术的PPCs预测模型,该模型具有良好的预测效能和临床价值。但是由于资料地区局限性的限制,样本代表性不高,模型还需要进一步的验证和修订。
参考文献
1. Miskovic A, Lumb AB. Postoperative pulmonary complications. Br J Anaesth. 2017; 118(3):317-334.
2. Kuzkov VV, Suborov EV, Fot EV, Rodionova LN, Sokolova MM, Lebedinskiy KM, Kirov MY. Postoperative pulmonary complications and acute respiratory distress syndrome - better prevent then treat. Anestrziol Reanimatol. 2016; 61(6):461-468.
3. Nijbroek SG, Schultz MJ, Hemmes SNT. Prediction of postoperative pulmonary complications. Curr Opin Anaesthesiol. 2019; 32(3):443-451.
4. Canet J, Gallart L, Gomar C, Paluzie G, Valles J, Castillo J, Sabate S, Mazo V, Briones Z, Sanchis J, ARISCAT Group. Prediction of postoperative pulmonary complications in a population-based surgical cohort. Anesthesiology. 2010; 113(6):1338-1350.
5. Lukannek C, Shaefi S, Platzbecker K, Raub D, Santer P, Nabel S, Lecamwasam HS, Houle HH, Eikermann M. The development and validation of the Score for the Prediction of Postoperative Respiratory Complications (SPORC-2) to predict the requirement for early postoperative tracheal re-intubation: a hospital registry study. Anaesthesia. 2019; 74(9):1165-1174.
6. 魏倩。高维数据下改进Logistic回归模型及其应用研究。武汉:中南财经政法大学,2019。
7. Shillan D, Stene J, Champneys A, Gibbison B. Use of machine learning to analyse routinely collected intensive care unit data: a systematic review. Crit Care. 2019; 23(1):284-294.
8. Hulzebos EHJ, Helders PJM, Favie NJ, de Bie RA, de la Riviere AB, van Meeteren NLU. Preoperative intensive inspiratory muscle training to prevent postoperative pulmonary complications in high-risk patients undergoing CABG surgery: a randomized clinical trial. JAMA. 2006; 296(15):1851-1857.
9. 沈琳,胡国清,陈立章,谭红专。缺失森林算法在缺失值填补中的应用。中国卫生统计,2014; 31(5):774-776。
10. Haines KL, Agarwal S. Postoperative pulmonary complications: a multifactorial outcome. JAMA. 2017; 152(2):166-167.