乳腺癌预测：统计和机器学习模型的开发和内外部验证-环球医学

关于环球医学

010-84476011

环球医学>> 临床用药>> 肿瘤>>正文内容

肿瘤

乳腺癌预测：统计和机器学习模型的开发和内外部验证

来源：环球医学编写时间：2023年08月07日点击数: 296 5星

临床预测模型已经通过提供个性化的风险评估来支持乳腺癌的医疗决策。2023年5月，英国学者发表在《BMJ》的队列研究，考察了乳腺癌预测的统计和机器学习模型的开发和内外部验证。

目的：旨在开发一个临床有用的模型，可通过比较回归和机器学习方法的结果，评估任何分期乳腺癌女性（自我报告为女性性别）10年内乳腺癌相关死亡率的风险。

设计：基于人群的队列研究。

数据来源：英格兰QResearch初级医疗数据库，与国家癌症注册、医院事件统计和国家死亡登记的个体水平链接。

参与者：2000年1月1日~2020年12月31日，141765名20岁及以上确诊为侵袭性乳腺癌的女性。

主要结局测量指标：包括2种回归（Cox比例风险和竞争风险回归）的4种建模策略和2种机器学习（XGBoost和人工神经网络）方法。内外部交叉验证用于模型评估。随机效应Meta分析汇总了判别和校准指标的估计值，校准图和决策曲线分析用于评估模型性能、可外推性和临床实用性。

结果：在中位4.16年（IQR，1.76~8.26）的随访期，发生21688例乳腺癌相关死亡和11454例其他原因死亡。当限制于乳腺癌确诊以来最多10年的随访期时，总共688564.81人-年中发生20367例乳腺癌相关死亡。粗乳腺癌死亡率为295.79/10000人-年（95% CI，291.75~299.88）。每个回归模型的预测值有差异，但Cox和竞争风险模型均纳入了诊断时的年龄、体重指数、吸烟状况、诊断途径、激素受体状态、癌症分期和乳腺癌分级。Cox模型的随机效应Meta分析汇总的Harrell 's C指数的评估值是所有模型中最高的，为0.858（95% CI，0.853~0.864，95%预测区间，0.843~0.873）。在校准图上，它似乎经过了可接受的校准。竞争风险回归模型具有良好的区分度：Harrell 's C指数为0.849（0.839~0.859，0.821~0.876），缺乏对汇总指标进行系统性误判的证据。机器学习模型总体上具有可接受的区分度（Harrell 's C指数：XGBoost 0.821（0.813~0.828，0.805~0.837）；神经网络0.847（0.835~0.858和0.816~0.878），但具有更复杂的错误校准模式以及更可变的局部和分期特定性表现。决策曲线分析表明，测试的Cox和竞争风险回归模型可能比两种机器学习方法具有更高的临床效用。

结论：在任何分期的乳腺癌女性中，使用此数据集中可用的预测因子，基于回归的方法与机器学习方法相比具有更好且更一致的表现，可能值得进一步评估其潜在的临床应用，例如分层随访。

（选题审校：姜丹编辑：丁好奇）
（本文由北京大学第三医院药剂科翟所迪教授及其团队选题并审校，环球医学资讯编辑完成。）

参考资料：
BMJ. 2023 May 10;381:e073800
Development and internal-external validation of statistical and machine learning models for breast cancer prognostication: cohort study
https://pubmed.ncbi.nlm.nih.gov/37164379/