МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Архив статей журнала
Методы машинного обучения широко используются для построения медицинских прогностических моделей. В то же время, наряду с методами, основанными на классической статистике, применяются байесовские методы, которые наиболее эффективны при малых объемах выборки. В данной работе построен ряд моделей прогнозирования биовозраста пациента на основе его функциональных данных с использованием как классических методов машинного обучения, так и байесовского подхода. В качестве данных использовались результаты кластеризации, проведенной нами ранее в предыдущем исследовании на материале медицинских организаций -quot;Свердловский областной клинический психоневрологический госпиталь для ветеранов войн-quot; и «Институт медицинских клеточных технологий» за 1995-2022 гг. в объеме 6440 записи, где было получено 4 кластера, разделенных по полу и статусу пациента (стационарный и амбулаторный). Исходя из предположения, что пациенты в амбулаторном статусе имеют наименьшую разницу биологического и календарного возраста и, поэтому, вносят меньшую ошибку в точность модели, чем пациенты в стационарном статусе, принято решение строить модели только для пациентов в амбулаторном статусе. В работе построен набор моделей для 2 кластеров - кластера мужчин в амбулаторном статусе (объем выборки 344 записи) и кластера женщин в амбулаторном статусе (объем выборки 991 запись). Анализ распределения возраста в каждой группе показал двумодальное распределение с границей при значении 40 лет. Поэтому группы были разделены по возрасту на две части: до 40 лет и после. Для выбора классических моделей машинного обучения использовалась платформа lazypredict. Для каждой группы выбирались 4 метода, дающие наибольшую точность и строились модели на их основе, а также использовались ансамбли моделей - stacking и votinmg. Точность моделей на тестовых данных составила от 4,1 до 6,3 лет. В байесовском подходе построена линейная многофакторная модель регрессии с заданным априорным распределением коэффициентов регрессии. Точность моделей составила от 4,9 до 6,6 лет.