МОДЕЛИРОВАНИЕ, ОПТИМИЗАЦИЯ И ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ
Архив статей журнала
Методы машинного обучения широко используются для построения медицинских прогностических моделей. В то же время, наряду с методами, основанными на классической статистике, применяются байесовские методы, которые наиболее эффективны при малых объемах выборки. В данной работе построен ряд моделей прогнозирования биовозраста пациента на основе его функциональных данных с использованием как классических методов машинного обучения, так и байесовского подхода. В качестве данных использовались результаты кластеризации, проведенной нами ранее в предыдущем исследовании на материале медицинских организаций -quot;Свердловский областной клинический психоневрологический госпиталь для ветеранов войн-quot; и «Институт медицинских клеточных технологий» за 1995-2022 гг. в объеме 6440 записи, где было получено 4 кластера, разделенных по полу и статусу пациента (стационарный и амбулаторный). Исходя из предположения, что пациенты в амбулаторном статусе имеют наименьшую разницу биологического и календарного возраста и, поэтому, вносят меньшую ошибку в точность модели, чем пациенты в стационарном статусе, принято решение строить модели только для пациентов в амбулаторном статусе. В работе построен набор моделей для 2 кластеров - кластера мужчин в амбулаторном статусе (объем выборки 344 записи) и кластера женщин в амбулаторном статусе (объем выборки 991 запись). Анализ распределения возраста в каждой группе показал двумодальное распределение с границей при значении 40 лет. Поэтому группы были разделены по возрасту на две части: до 40 лет и после. Для выбора классических моделей машинного обучения использовалась платформа lazypredict. Для каждой группы выбирались 4 метода, дающие наибольшую точность и строились модели на их основе, а также использовались ансамбли моделей - stacking и votinmg. Точность моделей на тестовых данных составила от 4,1 до 6,3 лет. В байесовском подходе построена линейная многофакторная модель регрессии с заданным априорным распределением коэффициентов регрессии. Точность моделей составила от 4,9 до 6,6 лет.
В статье предлагаются два подхода к анализу временных рядов численности бактериопланктона в трех различных слоях водной толщи озера Байкал. При первом подходе рассчитываются значения сезонной компоненты рядов методом скользящей средней и строятся аддитивные и мультипликативные модели, из которых на основании рассчитанных коэффициентов достоверности, выбираются лучшие. Проводится интерпретация оценок значений сезонной компоненты в каждой из них. При втором подходе выполняется корреляционно-регрессионный анализ совместного изменения численности бактериопланктона, температуры и уровня воды озера. Выдвигаются и проверяются статистические гипотезы о значимости коэффициентов корреляции между рассматриваемыми факторами. Строится математическая модель множественной регрессии с включением фиктивных переменных, описывающих влияние сезонных колебаний на изменение численности бактериопланктона. Рассчитывается статистическая оценка значимости построенной модели и включенных в модель факторов. Приводится интерпретация результатов корреляционно-регрессионного анализа по отношению к исследуемой предметной области. Делается вывод о том, что полученные результаты могут быть использованы при прогнозировании количества бактериопланктона в разные периоды времени, при составлении экологического обоснования состояния озера, а также прогноза его микробиологического режима.