当前位置:   article > 正文

基于机器学习的原发性乳腺淋巴瘤流行病学和预后指数预测模型:基于人群的研究_机器学习患者生存率影响因素

机器学习患者生存率影响因素

Epidemiology and a Predictive Model of Prognosis Index Based on Machine Learning in Primary Breast Lymphoma: Population-Based Study

摘要

原发性乳腺淋巴瘤(PBL)是一种罕见的疾病,其流行病学特征、治疗原则和影响患者预后的因素仍存在争议。本研究旨在探讨PBL的流行病学,并建立一个更好的基于机器学习的模型来预测原发性乳腺淋巴瘤患者的预后。从1975年至2019年的监测、流行病学和最终结果数据库中提取PBL的年发病率,使用Joinpoint软件(版本4.9;国家癌症研究所)。我们从监测、流行病学和最终结果数据库中收集了1251例原发性乳腺淋巴瘤女性患者的数据进行生存分析。单变量和多变量分析探讨了影响原发性乳腺淋巴瘤患者总生存率和疾病特异性生存率的独立预后因素。开发了八种机器学习算法来预测原发性乳腺淋巴瘤患者的5年生存率。1975年至2004年间,PBL的总发病率急剧上升,2004年前后发病率呈显著下降趋势,年均百分比变化(AAPC)为-0.8 (95% CI -1.1至-0.6)。PBL的趋势存在年龄和种族差异。65岁及以上年龄组的AAPC比65岁以下年龄组高1.2左右。白人患者的AAPC为0.9 (95% CI为0.0-1.8),而黑人患者的AAPC为2.1 (95% CI为2.5 - 6.9)。我们还发现,PBL的死亡风险是多因素的,包括患者因素和治疗因素。生存分析显示,与1983年至1990年诊断的患者相比,2007年至2015年诊断的患者死亡率风险显著降低。梯度增强模型的灵敏度为0.752,曲线下面积为0.817,优于其他模型。梯度增强模型建立的重要特征是诊断年份、年龄、组织学类型和原发部位,这是解释5年生存率最相关的变量。PBL的发病率在2004年后开始呈现下降趋势,随年龄和种族的不同而不同。近年来,原发性乳腺淋巴瘤患者的预后有了显著改善。梯度增压模型具有良好的性能。该模型可以帮助临床医生确定原发性乳腺淋巴瘤患者的早期预后,从而通过改变管理策略和患者保健来改善临床结果。

引言

原发性乳腺淋巴瘤(Primary breast lymphoma, PBL)被定义为一种仅发生于乳腺的淋巴瘤,在初诊时也发生于同侧淋巴结[1,2]。它在乳腺恶性肿瘤中所占比例不超过1%,在结外淋巴瘤中所占比例不到3%[3,4]。然而,近年来PBL的发病率呈上升趋势,值得关注[5]。

由于PBL是一种罕见的疾病,其流行病学特征、治疗和预后仍然存在争议。特别是,在不同的研究中报道的预后差异很大,这对我们评估PBL的预后提出了挑战。以往报道的5年生存率为50% ~ 90%[6-11]。当然,这种多样性可能是由于不同的病例系列、可用的样本小、不同的亚型、临床阶段、治疗方法等。关于什么会影响PBL的结果,以及改变会带来多大的影响,研究尚无定论。不同临床分期的5年生存率不同,I期为89%,II期为50%[12]。近年来远期预后存在巨大差异,随着现代治疗的发展,预后有所改善[13]。年龄也被报道为独立的预后因素,老年患者的病例合并更多的合并症,导致预后较差[14,15]。在一些研究中,化疗和放疗与更长的生存期相关,并且乳房切除术没有益处[2,16]。然而,与上述因素相比,组织学亚型起着更重要的作用。弥漫性大b细胞淋巴瘤(DLBCL)是最常见的亚型,其侵袭性更强,其次是滤泡和粘膜相关淋巴组织淋巴瘤(MALT),表现为惰性[13,17]。Picasso等[18]发现50%的原发性乳腺淋巴瘤患者肿瘤位于外上象限,25%位于内上象限;然而,没有研究试图分析不同原发部位之间的预后。因此,原发部位的因素也被纳入我们的研究。还有许多其他因素可能影响PBL的结果,但目前尚不清楚每一个因素的作用。

为了建立一种可靠的方法来预测原发性乳腺淋巴瘤患者的预后,我们需要将所有潜在的预后因素以不同的权重比例组合在一个模型中。由于在复杂的干扰因素(如Nomogram)下,传统的方法很难建立有效的模型,因此我们使用机器学习和SEER (Surveillance, Epidemiology, and End Results)数据库进行研究。首先,我们调查了PBL的流行病学、临床病理特征、治疗方式和结果。其次,我们试图建立一种预测模式。

方法

从1975年至2019年的SEER数据库中提取PBL的年发病率,以检查全国趋势,所有发病率都经过年龄调整。由于Ann Arbor分期直到1983年才可用,因此在1975年至1982年间诊断的患者未被纳入生存分析和机器学习模型的建立。最后,我们使用SEER Stat(版本8.3.9;(美国国家癌症研究所)进行生存分析,根据以下纳入标准:女性,诊断年份为1983年至2015年,诊断年龄大于15岁,乳腺淋巴瘤作为唯一的原发性恶性肿瘤诊断,并是安阿伯I-II期。排除标准如下:Ann Arbor III-IV期(因为这些被认为不太可能符合结外疾病)或未知信息,年龄小于15岁,多发肿瘤,男性病例,30天内死亡的患者。本研究从诊断之日起至2019年12月31日,即患者死亡之日,追踪随访时间,可提供5年以上的随访数据。在我们的研究中确定了患者的特征和治疗过程。数据涉及年龄、种族、诊断年份、婚姻状况、侧发、原发肿瘤部位、组织学、安娜堡分期、手术状态、放疗状态和化疗状态。手术分为乳房切除术和保乳手术。由于SEER数据库没有提供详细的化疗和放疗数据,如方案、剂量和持续时间,我们无法进一步对化疗和放疗进行分类。然而,蒽环类化疗方案和结外病变放疗是原发性乳腺淋巴瘤患者的主要治疗选择[2,19,20],因此这些局限性对我们的结果没有太大影响。

我们的主要数据是从SEER数据库中提取的,该数据库是公开的。在签署了SEER 1975-2019研究数据文件的数据使用协议后,我们获得了数据提取和使用的许可。因此,本研究免除了人类受试者研究伦理审查和知情同意。我们确认登记患者的信息是匿名的或未识别的。此外,所有统计分析均按照SEER计划的规定进行。

该研究的主要终点是总生存期(OS)。它被定义为从最初诊断之日到包括PBL在内的任何原因导致的死亡之日。在最后一次随访时活着的患者被审查。在我们的研究中,作为次要研究结果的疾病特异性生存(Disease-specific survival, DSS)被定义为从诊断之日到因PBL而死亡之日。

PBL的发生率从SEER数据库中检索进行趋势分析。使用Joinpoint软件(version 4.9;国家癌症研究所)基于对数线性模型。计算了年变化百分比和年平均变化百分比(AAPC),以指示趋势的方向和幅度。为了探讨人口统计学差异对PBL发病率的影响,将总体人口分为不同的年龄组,包括年龄和种族。

Kaplan-Meier法生成生存曲线。采用log-rank检验确定PBL患者不同人口学特征和临床特征之间的差异。使用Cox比例风险回归模型确定与结果相关的因素,确定95% CI的风险比(HR)。统计分析采用SPSS (26.0;IBM公司),P值小于0.05被认为有统计学差异。

收集年龄、种族、诊断年份、婚姻状况、侧边性、原发肿瘤部位、组织学、安娜堡分期、手术状态、放疗状态和化疗状态等11个分类预测因子,构建5年生存预测的机器学习模型(图1)。使用MissForest软件包对数据集中的缺失值进行估算。在所有入组患者中,35.1% (n=439)的患者没有原发部位信息,11.2% (n=140)的患者缺少组织学类型信息,18.1% (n=226)的患者没有治疗信息。缺失值的部分远小于严重缺失的截止值(75%),这保证了MissForest算法的良好性能[21]。在建立机器学习模型之前,将所有原发性乳腺淋巴瘤患者随机分为训练集和测试集,比例为80:20。在我们的研究中,使用了8种机器学习算法,包括k -最近邻、CatBoost、决策树、随机森林方法、Gradient Boost、LightGBM、支持向量机和XGBoost模型。采用10倍内部交叉验证来确定最佳参数,从而在每个模型中提供最高程度的准确性。随后,在一个测试集中对所有机器学习算法的性能进行评估,评估指标包括准确性、精密度、灵敏度、F1评分和接收者工作特征曲线下面积(AUC)。通过基于部分依赖包的特征重要性来评估每个元素对机器学习模型的贡献。Python(版本3.8;Python软件基金会)在本文中使用。

结果

患者的基线临床特征见表1。

总的来说,共有1251名符合条件的患者入组了我们的研究。其中<65岁540例(43.2%),65岁711例(56.8%)。双侧肿瘤31例(2.5%),单侧肿瘤1220例(97.5%)。Ann Arbor分期分布如下:I期976例(78%),II期275例(22%)。DLBCL是PBL中最常见的组织学类型,其次是MALT和滤泡性淋巴瘤(FL),占43.4%。此外,纳入的患者不倾向于接受局部治疗,包括手术(不手术vs保乳和乳房切除术:n=656, 52.4% vs n=369, 29.5%)和放疗(不放疗vs放疗:n=1031, 82.4% vs n=220, 17.6%),而不化疗和化疗的患者比例大致相同(不化疗vs化疗:n=656, 52.4% vs n=595, 47.6%)。

1975年至2019年,按年龄和种族划分的原发性乳腺淋巴瘤患者的年百分比变化和AAPC见表2和图2。结果显示,1975年至2019年,原发性乳腺淋巴瘤患者的AAPC增长趋势显著,为0.8 (95% CI 0.1-1.5)。PBL的发病率在2004年前后出现了一个转折点。1975 - 2004年呈上升趋势,2004 - 2019年呈下降趋势(AAPC=- 0.8;95% CI- 1.1 ~- 0.6)。65岁年龄组的AAPC比<65岁年龄组的AAPC高1.2左右。PBL的发病率随年龄的增长而缓慢增加。白人患者的AAPC为0.9 (95% CI为0.0-1.8),而黑人患者的AAPC为2.1 (95% CI为2.5 - 6.9)。一般来说,1975年至2004年期间,白人人群的PBL发病率大幅增加,随后在2004年至2019年期间呈下降趋势。黑人患者群体也有类似的趋势;然而,高峰是在2002年,发病率下降明显慢于白人患者。

 入组患者的中位随访时间为106个月。基于不同人口统计学和临床特征基线的OS和DSS的Kaplan-Meier曲线如图3和图4.4所示。在我们的分析中,年龄大于65岁的患者预后明显差于年轻患者,这表明年龄是一个重要的预后因素。疾病诊断时间段的Kaplan-Meier曲线如图3E和图4E所示,2007 - 2015年时间段远优于其他时间段。弥漫性大b细胞淋巴瘤患者的生存期较其他组织学类型短。在诊断时,较低的安娜堡期(I期)患者比较高的安娜堡期(II期)患者表现出明显的生存优势。乳房的原发部位也会影响PBL的预后,因为中心部分或乳头肿瘤患者的预后比原发肿瘤部位在其他乳房象限的患者更差。原发部位的实际侧边(双侧或单侧)和种族似乎与预后无关。在治疗方式上,保乳手术加放疗有较好的OS和DSS。

 

各变量的单变量Cox回归分析见附录1。多因素分析结果如表3所示,年龄、婚姻状况、诊断年份、组织学类型、Ann Arbor分期、放疗状况是独立的预后因素。确诊时年龄较大的患者死亡风险高于年龄较小的患者(OS: HR 3.458, 95% CI 2.766-4.323, P< 0.001;Dss: HR 1.997, 95% CI 1.511-2.639, p <0.001,分别)。在婚姻状况方面,已婚妇女有显著的生存优势(os: hr 1.549, 95% ci 1.294 ~ 1.854, p < 0.001;Dss: hr 1.462, 95% ci 1.140 ~ 1.874, p =0.003年,分别)。2007 - 2015年诊断的患者死亡率风险显著低于1983 - 1990年诊断的患者(OS: HR 0.536, 95% CI 0.312-0.919, P= 0.02;Dss: hr 0.411, 95% ci 0.199 ~ 0.849, p =0.02年,分别)。。。

我们使用1251例患者数据集来训练8个机器学习模型来预测PBL诊断后的5年生存率。表4详细列出了这8种算法的性能。由此产生的混淆矩阵显示在附录2中。对于测试数据集,灵敏度分别为k近邻模型(0.624)、Catboost模型(0.736)、决策树模型(0.736)、随机森林模型(0.720)、梯度增强模型(0.752)、LightGBM模型(0.712)、支持向量机模型(0.696)和XGBoost模型(0.728)。auc分别为k近邻模型(0.735)、Catboost模型(0.829)、决策树模型(0.667)、随机森林模型(0.817)、梯度增强模型(0.817)、LightGBM模型(0.814)、支持向量机模型(0.761)和XGBoost模型(0.811)。8种型号的接收机工作特性曲线如图5所示。由于我们研究的设计,我们主要集中在测试在第五年经历死亡的高风险患者的敏感性。梯度增强模型的准确度、精密度、灵敏度和F1评分在8个模型中最高;模型也显示出较高的AUC。因此,梯度增强算法被证明是最适合本研究的模型。附录3显示了梯度增强剂中使用的每个变量的重要性评分,这表明诊断年份、年龄、组织学类型和原发部位是解释5年生存状况的4个最相关的变量。

 

讨论

为了了解过去40年来原发性乳腺淋巴瘤患者的发病率趋势和生存率的变化,我们使用SEER数据库的数据进行了一项基于人群的大型流行病学研究。我们的研究结果显示,PBL的总体发病率在2004年左右开始下降。我们的研究首次报道了这一令人鼓舞的现象。我们还开发并验证了基于机器学习算法的预测5年生存率的新模型。其中,梯度助推器模型在在AUC,准确度,精密度,灵敏度和F1分数方面取得了最有希望的结果。

PBL是一种相对罕见的结外淋巴瘤,全球关于PBL发病率的报道仍然有限。根据1975年至2000年的文献,PBL的总体发病率急剧上升,但最近趋于稳定[13]。我们的研究结果表明了类似的趋势。通过从SEER数据库中提取1975年至2019年的数据,我们发现1975年至2004年期间PBL的发病率总体上升,2004年发病率达到峰值。相比之下,之前一篇使用IARC的GLOBOCAN数据库估计2018年185个国家非霍奇金淋巴瘤(NHL)发病率的文章也显示,直到20世纪90年代,PBL发病率呈上升趋势,此后趋于稳定或下降[22]。遗传决定因素、生活方式和环境因素被认为是NHL的病因[23]。丙型肝炎病毒、eb病毒、幽门螺杆菌和HIV的感染增加了NHL的发生风险,而淋巴瘤发病率的降低可以部分归因于病毒感染发生率的降低和抗逆转录病毒治疗的进步[24-26]。在我们的研究中,我们关注的是年龄和种族对疾病发病率的可能影响。我们的数据显示,老年人的AAPC是年轻人的3倍。与我们的研究结果一致,英国癌症研究中心(Cancer Research UK)的一份报告显示,NHL诊断中老年人的比例很高,其中80 - 84岁的发病率最高[27]。我们的数据显示,PBL的发病率随着年龄的增长而缓慢增加。此外,种族也与发病率显著相关,黑人的AAPC远高于白人。不同种族PBL发病率的明显差异可能与获得医疗保健的水平、诊断服务的可获得性、地方性感染和环境因素有关[28]。总之,这一初步发现表明,未来PBL的生物学和流行病学分析应按年龄和种族背景分层。

建立一种可靠的预测乳腺原发性淋巴瘤患者预后的方法,对于早期确定乳腺原发性淋巴瘤患者的治疗方案具有至关重要的作用。目前,我们主要根据临床病理特征来判断原发性乳腺淋巴瘤患者的预后;然而,有限的数据不能为临床医生提供足够的信息来处理这种极其复杂的疾病。虽然有研究开发了预测PBL生存的nomogram,但Ann Arbor III期和IV期患者都参与了研究,这可能会影响模型的有效性[1,2,15]。此外,手术、化疗、放疗等对疾病预后有重要影响的治疗方法因缺乏统计学意义而未纳入模型[15]。这些遗漏使得任何结论都极具争议性。机器学习在医学领域被广泛应用于疾病诊断、预后、治疗方式选择等方面[29-31]。机器学习模型可以自动调整因素的权重,以充分利用数据。我们的研究以原发性乳腺淋巴瘤患者的5年生存率作为预测终点,这是早期判断预后的重要指标。结果表明,梯度增压器模型的性能优于其他模型,是一种很有发展前途的模型。机器学习技术也被用于预测浸润性乳腺癌的5年和10年复发。Massafra等[32]入组529例意大利乳腺癌患者,预测5年和10年复发的AUC值分别为0.771和0.763。有28个与原发性乳腺癌临床病理特征和治疗方案相关的特征被用于训练模型,这比我们的队列更详细。使用28个特征是因为乳腺癌比PBL能提供更多的临床病理特征和更多的治疗方法。然而,我们建立的梯度助推模型显示出更高的AUC值,这反映了即使在有限的预测器下,仍然有可能训练出有希望的预测模型。

梯度增强模型建立的重要特征是诊断年份、年龄、组织学类型和原发部位作为解释5年生存状况的4个最相关的变量。诊断年份被认为是最有意义的预测预后因素,这表明目前的治疗,可能与较新的全身治疗(如利妥昔单抗)相结合,改善了对该疾病的控制[13]。利妥昔单抗于1997年11月26日获得美国食品和药物管理局批准在美国上市,是治疗PBL的一个里程碑。这可能是我们的研究结果显示1999年后原发性乳腺淋巴瘤患者预后显著改善的一个重要因素。与其他研究一样,年龄和组织学类型在机器学习模型中被证实是重要的预后因素[3,15,33,34]。毫无疑问,老年PBL患者的合并症较多,耐受性或身体状况较差,这可能对生存时间产生直接的负面影响[33,36]。根据过去的研究,不同的组织学类型表现出巨大的生存差异,部分原因可能是一些细胞表型具有高增殖特征,与治疗反应差有关[33,34,37]。有趣的是,在梯度增强模型中,PBL的原发部位被认为是一个重要的预测预后特征,这在其他系列中从未报道或分析过。PBL原发部位存在显著差异,有队列研究发现PBL易位于外上象限,我们的研究也证实了这一点[18]。我们的Kaplan-Meier生存曲线显示,不同原发部位的中心部位和乳头部位的预后较差。这可能与乳腺淋巴引流的解剖结构有关。乳晕下神经丛收集来自乳腺实质的淋巴管,然后引流到腋窝淋巴结。此外,深层淋巴通道连接皮肤浅淋巴丛,尤其是乳头周围的乳晕下淋巴丛[38,39]。中心部或乳头原发部位易出现淋巴管侵犯,预后较差;然而,这需要在未来的试验或实验研究中进一步研究。

我们的研究提供了关于过去40年的发病率和预后因素的信息,涉及足够的样本量。此外,基于机器学习算法的原发性乳腺淋巴瘤患者的第一个预后模型进行了临床应用。我们相信我们已经建立了一个性能良好的预测模型,它可以为医生提供一个易于访问的预测工具,并为原发性乳腺淋巴瘤患者提供更个性化的随访策略、管理策略和患者护理。该模型可能有助于识别那些预后不良风险较高、需要更积极治疗的患者。然而,我们的研究也存在一些局限性。由于SEER数据库的信息有限,我们的模型中没有包括生物标志物、化疗方案、放疗剂量和靶向药物等变量。因此,在解释结果时,应谨慎使用。此外,该数据库可能无法捕获所有相关的患者结果,包括中枢神经系统复发的频率,这可能会影响我们对结果的解释。此外,本研究中生成的模型尚未在外部验证队列中得到验证。为了实现这一目标,我们正在收集相关案例信息,建立数据库。

结论

PBL的发病率在2004年后开始呈现下降趋势,随年龄和种族的不同而不同。近年来,PBL的预后有了显著改善。梯度增压模型具有良好的性能。该模型可以帮助临床医生早期确定原发性乳腺淋巴瘤患者的预后,从而通过改变管理策略和患者保健来改善临床结果。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号