Использование машинного обучения для прогнозирования онкологических заболеваний на основе данных электронных медицинских карт: автоматизированный подход к скринингу

Ермак, А. Д., Гаврилов, Д. В., Новицкий , Р. Э., Гусев, А. В., Комаров, Ю. И., & Андрейченко, А. Е. (2025). Использование машинного обучения для прогнозирования онкологических заболеваний на основе данных электронных медицинских карт: автоматизированный подход к скринингу. Вопросы онкологии, 71(4), OF–2258. https://doi.org/10.37469/0507-3758-2025-71-4-OF-2258

Аннотация

Введение. Своевременная диагностика онкологических заболеваний повышает выживаемость пациентов и снижает затраты на здравоохранение за счет сокращения числа госпитализаций и повышения шансов на ремиссию. Сохраняется необходимость в практичных и интерпретируемых инструментах скрининга, которые могут эффективно способствовать раннему выявлению пациентов с онкологическими заболеваниями, для своевременного вмешательства.
Цель. Разработка и внешняя валидация моделей машинного обучения для прогнозирования вероятности развития онкологических заболеваний в течение 18 мес. на основе данных реальной клинической практики.
Материалы и методы. В исследовании использовались анонимизированные данные электронных медицинских карт 1,3 млн пациентов 36 регионов Российской Федерации. В качестве предикторов рассмотрены пол, возраст, среднее изменение массы тела за месяц, скорость оседания эритроцитов, гемоглобин крови, индекс массы тела и история клинически значимых сопутствующих заболеваний. Целевое событие представлено любым онкологическим заболеванием, определенным по кодам группы С МКБ-10 у 177 384 пациентов. Для сравнения использовались модели Logistic Regression, LGBMClassifier, Random Forest, Linear Discriminant Analysis и Naive Bayes. Внешняя валидация проводилась на данных из регионов с различным географическим происхождением (29 681 и 25 145 пациентов).
Результаты. Модель на основе LGBMClassifier продемонстрировала лучшие результаты с AUROC 0,807 (95 % ДИ 0,798–0,815) при внутреннем тестировании, а также на внешних данных, взятых из отдельного региона и отдельного временного промежутка (0,794 (95 % ДИ 0,786–0,800) и 0,790 (95 % ДИ 0,782–0,798) соответственно).
Заключение. Новый подход с использованием модели машинного обучения, подготовленной на простых и распространенных клинических, лабораторных и анамнестических признаках, продемонстрировал эффективность и практичность применения как на внешних данных, так и по сравнению с предыдущими исследованиями.

https://doi.org/10.37469/0507-3758-2025-71-4-OF-2258

Загрузок: 74

Загрузок: 21

pdf

pdf suppl

Библиографические ссылки

Usher-Smith J., Emery J., Hamilton W., et al. Risk prediction tools for cancer in primary care. British Journal of Cancer. 2015; 113(12): 1645–50.-DOI: 10.1038/bjc.2015.409.

Chiang P.C., Glance D., Walker J., et al. Implementing a qcancer risk tool into general practice consultations: An exploratory study using simulated consultations with Australian general practitioners. Br J Cancer. 2015; 112(S1): S77–83.-DOI: 10.1038/bjc.2015.46.

Hippisley-Cox J., Coupland C. Development and validation of risk prediction algorithms to estimate future risk of common cancers in men and women: Prospective cohort study. BMJ Open. 2015; 5(3): e007825.-DOI: 10.1136/bmjopen-2015-007825.

Kulm S., Kofman L., Mezey J., Elemento O. Simple linear cancer risk prediction models with novel features outperform complex approaches. JCO Clin Cancer Inform. 2022; (6).-DOI: 10.1200/CCI.21.00166.

Miotto R., Li L., Kidd B.A., Dudley J.T. Deep patient: an unsupervised representation to predict the future of patients from the electronic health records. Sci Rep. 2016; (6).-DOI: 10.1038/srep26094.

Watson J., Salisbury C., Banks J., et al. Predictive value of inflammatory markers for cancer diagnosis in primary care: a prospective cohort study using electronic health records. Br J Cancer. 2019; 120(11): 1045–51.-DOI: 10.1038/s41416-019-0458-x.

Nicholson B.D., Hamilton W., Sullivan J.O’, et al. Weight loss as a predictor of cancer in primary care: A systematic review and meta-analysis. 2018; 68(670): e311–22, Royal College of General Practitioners.-DOI: 10.3399/bjgp18X695801.

Hung N., et al. Risk of cancer in patients with iron deficiency anemia: A nationwide population-based study. PLoS One. 2015; 10(3): e0119647.-DOI: 10.1371/journal.pone.0119647.

Star J., et al. Updated review of major cancer risk factors and screening test use in the United States, with a focus on changes during the COVID-19 pandemic. 2023; 32(7): 879–88. American Association for Cancer Research Inc.-DOI: 10.1158/1055-9965.EPI-23-0114.

Collins G.S., Reitsma J.B., Altman D.G., Moons K.G.M. Transparent reporting of a multivariable prediction model for individual prognosis or diagnosis (TRIPOD): The TRIPOD Statement. BMC Med. 2015; 13(1): 1.-DOI: 10.1186/s12916-014-0241-z.

Collins G.S., Moons K.G.M., Dhiman P., et al. TRIPOD+AI statement: updated guidance for reporting clinical prediction models that use regression or machine learning methods. BMJ. 2024; e078378.-DOI: 10.1136/bmj-2023-078378.

Kapoor S., Narayanan A. Leakage and the reproducibility crisis in machine-learning-based science. Patterns. 2023; 4(9): 100804.-DOI: 10.1016/j.patter.2023.100804.

Li C. Little′s test of missing completely at random. The Stata Journal. 2013; 13(4): 795–809.-DOI: 10.1177/1536867X1301300407.

Sokolova M., Lapalme G. A systematic analysis of performance measures for classification tasks. Inf Process Manag. 2009; 45(4): 427–37.-DOI: 10.1016/j.ipm.2009.03.002.

Zoubir A., Iskandler D. Bootstrap methods and applications. IEEE Signal Processing Magazine. 2007; 24(4): 10–9.-DOI: 10.1109/msp.2007.4286560.

Fischer G., Evans A.T. SpPin and SnNout are not enough. It’s Time to fully embrace likelihood ratios and probabilistic reasoning to achieve diagnostic excellence. J Gen Intern Med. 2023; 38(9): 2202–4.-DOI: 10.1007/s11606-023-08177-5.

Lundberg S.M., Erion G., Chen H., et al. From local explanations to global understanding with explainable AI for trees. Nat Mach Intell. 2020; 2(1): 56–67.-DOI: 10.1038/s42256-019-0138-9.

Van Calster B., McLernon D.J., van Smeden M., et al. Calibration: the Achilles heel of predictive analytics. BMC Med. 2019; 17(1).-DOI: 10.1186/s12916-019-1466-7.

Ding Y., Simonoff J. An investigation of missing data methods for classification trees applied to binary response data. J Mach Learn Res. 2010; 11: 131-70.-DOI: 10.5555/1756006.1756012.

Cao X.H., Stojkovic I., Obradovic Z. A robust data scaling algorithm to improve classification accuracies in biomedical data. BMC Bioinformatics. 2016; 17(1): 359.-DOI: 10.1186/s12859-016-1236-x.

de Amorim L.B.V., Cavalcanti G.D.C., Cruz R.M.O. The choice of scaling technique matters for classification performance. Appl Soft Comput. 2023; 133: 109924.-DOI: 10.1016/j.asoc.2022.109924.

Weiss G.M. Foundations of imbalanced learning. In: He H., Ma Y., eds. Imbalanced learning: foundations, algorithms, and applications. Hoboken (NJ): John Wiley & Sons. 2013; 13-41.-ISBN: 9781118074626.

Ke G., Meng Q., Finley T., et al. LightGBM: a highly efficient gradient boosting decision tree. Adv Neural Inf Process Syst. 2017.

Breiman L. Random forests. Mach Learn. 2001; 45(1): 5-32.-DOI: 10.1023/A:1010933404324.

Akiba T., Sano S., Yanase T., et al. Optuna: a next-generation hyperparameter optimization framework. In: Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining; 2019; 2623-31.-DOI: 10.1145/3292500.3330701.

Wester D.B. Comparing treatment means: overlapping standard errors, overlapping confidence intervals, and tests of hypothesis. Biom Biostat Int J. 2018; 7(1): 73-85.-DOI: 10.15406/bbij.2018.07.00192.

Это произведение доступно по лицензии Creative Commons «Attribution-NonCommercial-NoDerivatives» («Атрибуция — Некоммерческое использование — Без производных произведений») 4.0 Всемирная.

Наиболее читаемые статьи этого автора (авторов)

Юрий Игоревич Комаров, Алексей Михайлович Беляев, Наталья Николаевна Хилько, Арина Игоревна Ускова, Дарья Алексеевна Денисова, Борис Сергеевич Каспаров, Анна Евгеньевна Андрейченко, Жанна Владимировна Хайлова, Андрей Дмитриевич Каприн, Виталий Владимирович Омельяновский, Будущее популяционного скрининга и виртуальный скрининг онкологических заболеваний , Вопросы онкологии: Том 70 № 6 (2024)
Виталий Владимирович Омельяновский, Юлия Андреевна Агафонова, Полина Алексеевна Мухортова, Филипп Васильевич Горкавенко, Юрий Игоревич Комаров, Жанна Владимировна Хайлова , Андрей Дмитриевич Каприн, Конечные точки и исходы в онкологических исследованиях реальной клинической практики , Вопросы онкологии: Том 71 № 4 (2025)