КЛАССИФИКАЦИЯ МУЛЬТИМОДАЛЬНЫХ ДАННЫХ О ЗАБОЛЕВАНИЯХ ЛЕГКИХ НА ОСНОВЕ ПОЗДНЕГО СЛИЯНИЯ МОДАЛЬНОСТЕЙ (2024)

С развитием аппаратных технологий высококачественные рентгеновские снимки стали доступны для диагностики заболеваний легких с помощью специалистов-радиологов. Однако процесс диагностики занимает много времени и зависит от наличия в медицинском учреждении специалистов соответствующего профиля. В то же время информация о пациенте может включать не только рентгеновские снимки грудной клетки разного качества, а также результаты медицинских анализов, записи и предписания врача, сведения о приеме лекарств и другие. В данном исследовании предложена модель классификации легочных заболеваний на основе мультимодальных данных о клинических исследованиях пациентов и рентгенографических изображений. При подготовке данных использованы различные методы генерации искусственных образцов как для изображений, так и для табличных данных о результатах лабораторных исследований. Предложен метод установления соответствия для сгенерированных образцов между модальностями. Предложенная мультимодальная модель имеет архитектуру позднего слияния. Проведены эксперименты на наборах данных с одной и двумя модальностями. Предложенная модель показала точность на 5.5% выше, чем модели, основанные на одной модальности (91.3% против 86.11% на наборе данных из 1 156 пациентов).

Издание: ВЕСТНИК ЮЖНО-УРАЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: ВЫЧИСЛИТЕЛЬНАЯ МАТЕМАТИКА И ИНФОРМАТИКА
Выпуск: Т. 13 № 1 (2024)
Автор(ы): Иванова Ольга Николаевна, Кумар Сэчин, Цымблер Михаил Леонидович, Иванова Елена Владимировна
Сохранить в закладках
ПОДХОД К КЛАССИФИКАЦИИ МНОГОМОДАЛЬНЫХ ДАННЫХ О ЗАБОЛЕВАНИЯХ ПНЕВМОНИЕЙ НА ОСНОВЕ ПРОМЕЖУТОЧНОГО СЛИЯНИЯ (2023)

В медицинской практике первичную диагностику заболеваний следует проводить быстро и по возможности автоматически. Обработка многомодальных данных в медицине стала повсеместно распространеннымметодом классификации, прогнозирования и обнаружения заболеваний. Пневмония - одно из наиболее распространенных заболеваний легких. В нашем исследовании для выявления пневмонии мы использовалирентгенограммы органов грудной клетки в качестве первой модальности и результаты лабораторных исследований пациента в качестве второй модальности. Архитектура многомодальной модели глубокого обучениябыла основана на промежуточном слиянии. Модель обучалась на сбалансированных и несбалансированныхданных, когда наличие пневмонии определялось в 50% и 9% от общего числа случаев соответственно. Дляболее объективной оценки результатов мы сравнили производительность нашей модели с несколькими другими моделями с открытым исходным кодом на наших данных. Эксперименты демонстрируют высокуюэффективность предложенной модели выявления пневмонии по двум модальностям даже в случаях несбалансированных классов (до 96.6%) по сравнению с результатами одномодальных моделей (до 93.5%). Мысделали несколько интегральных оценок производительности предлагаемой модели, чтобы охватить и исследовать все аспекты многомодальных данных и особенностей архитектуры. Были показатели точности,ROC AUC, PR AUC, показателя F1 и коэффициента корреляции Мэтьюса. Используя различные метрики, мы доказали возможность и целесообразность использования предложенной модели с целью правильнойклассификации заболевания. Эксперименты показали, что производительность модели, обученной на несбалансированных данных, даже немного выше, чем у других рассмотренных моделей.

Издание: ВЕСТНИК ЮЖНО-УРАЛЬСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА. СЕРИЯ: ВЫЧИСЛИТЕЛЬНАЯ МАТЕМАТИКА И ИНФОРМАТИКА
Выпуск: Т. 12 № 3 (2023)
Автор(ы): Иванова Ольга Николаевна, Мелехин А. В., Иванова Елена Владимировна, Кумар Сэчин, Цымблер Михаил Леонидович
Сохранить в закладках
ПОИСК АНОМАЛИЙ В БОЛЬШИХ ВРЕМЕННЫХ РЯДАХ НА КЛАСТЕРЕ С GPU УЗЛАМИ (2023)

В настоящее время обнаружение аномалий в длинных временных рядах возникает в широком спектре предметных областей: цифровая индустрия, здравоохранение, моделирование климата, финансовая аналитика и др. Диссонанс формализует понятие аномалии и определяется как подпоследовательность ряда, которая имеет расстояние до своего ближайшего соседа, не превышающее наперед заданного аналитиком порога. Ближайшим соседом подпоследовательности является та подпоследовательность ряда, которая не пересекается с данной и имеет минимальное расстояние до нее. В статье представлен новый алгоритм поиска диссонансов временн´ого ряда на вычислительном кластере, каждый узел которого оснащен графическим процессором. Алгоритм применяет параллелизм по данным: временн´ой ряд разбивается на непересекающиеся фрагменты, обрабатываемые графическими процессорами узлов вычислительного кластера. С помощью ранее разработанного авторами параллельного алгоритма на каждом узле выполняется отбор локальных кандидатов в диссонансы. Далее с помощью обменов на каждом узле формируется множество глобальных кандидатов как объединение всех локальных кандидатов. Затем каждый узел выполняет глобальную очистку, удаляя из множества глобальных кандидатов ложноположительные диссонансы. Глобальная очистка распараллеливается на основе блочного умножения матрицы кандидатов и матрицы подпоследовательностей фрагмента. Результирующее множество диссонансов формируется как пересечение множеств, полученных узлами по итогу глобальной очистки. Вычислительные эксперименты с синтетическими и реальными временными рядами, проведенные на платформе суперкомпьютеров Ломоносов-2 и Лобачевский, оснащенных 48-64 графическими процессорами, показывают высокую масштабируемость разработанного алгоритма.

Издание: ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ И ПРОГРАММИРОВАНИЕ
Выпуск: Т. 24 № 3 (2023)
Автор(ы): Цымблер Михаил Леонидович, Краева Яна Александровна
Сохранить в закладках
ВОССТАНОВЛЕНИЕ ПРОПУЩЕННЫХ ЗНАЧЕНИЙ ВРЕМЕННОГО РЯДА НА ОСНОВЕ СОВМЕСТНОГО ПРИМЕНЕНИЯ АНАЛИТИЧЕСКИХ АЛГОРИТМОВ И НЕЙРОННЫХ СЕТЕЙ (2023)

В настоящее время обработка данных временных рядов осуществляется в широком спектре научных и практических приложений, в которых актуальной является задача восстановления единичных точек или блоков значений временного ряда, пропущенных из-за аппаратных или программных сбоев либо ввиду человеческого фактора. В статье представлен метод SANNI (Snippet and Artificial Neural Network-based Imputation) для восстановления пропущенных значений временного ряда, обрабатываемого в режиме офлайн. SANNI включает в себя две нейросетевые модели: Распознаватель и Реконструктор. Распознаватель определяет сниппет (типичную подпоследовательность) ряда, на который наиболее похожа данная подпоследовательность с пропущенной точкой, и состоит из следующих трех групп слоев: сверточные, рекуррентный и полносвязные. Реконструктор, используя выход Распознавателя и входную подпоследовательность c пропуском, восстанавливает пропущенную точку. Реконструктор состоит из трех групп слоев: сверточные, рекуррентные и полносвязные. Топологии слоев Распознавателя и Реконструктора параметризуются относительно соответственно количества сниппетов и длины сниппета. Представлены методы подготовки обучающих выборок указанных нейросетевых моделей. Проведены вычислительные эксперименты, показавшие, что среди передовых аналитических и нейросетевых методов SANNI входит в тройку лучших.

Издание: ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ И ПРОГРАММИРОВАНИЕ
Выпуск: Т. 24 № 3 (2023)
Автор(ы): Цымблер Михаил Леонидович, Юртин Алексей Артемьевич
Сохранить в закладках
ПОИСК ТИПИЧНЫХ ПОДПОСЛЕДОВАТЕЛЬНОСТЕЙ ВРЕМЕННОГО РЯДА НА ГРАФИЧЕСКОМ ПРОЦЕССОРЕ (2021)

Поиск типичных подпоследовательностей временного ряда является одной из актуальных задач интеллектуального анализа временных рядов. Данная задача предполагает нахождение набора подпоследовательностей временного ряда, которые адекватно отражают течение процесса или явления, задаваемого этим рядом. Поиск типичных подпоследовательностей дает возможность резюмировать и визуализировать большие временные ряды в широком спектре приложений: мониторинг технического состояния сложных машин и механизмов, интеллектуальное управление системами жизнеобеспечения, мониторинг показателей функциональной диагностики организма человека и др. Предложенная недавно концепция сниппета формализует типичную подпоследовательность временного ряда следующим образом. Сниппет представляет собой подпоследовательность, на которую похожи многие другие подпоследовательности данного ряда в смысле специализированной меры схожести, основанной на евклидовом расстоянии. Поиск типичных подпоследовательностей с помощью сниппетов показывает адекватные результаты для временных рядов из широкого спектра предметных областей, однако соответствующий алгоритм имеет высокую вычислительную сложность. В настоящей работе предложен новый параллельный алгоритм поиска сниппетов во временном ряде на графическом ускорителе. Распараллеливание выполнено с помощью технологии программирования CUDA. Разработаны структуры данных, позволяющие эффективно распараллелить вычисления на графическом процессоре. Представлены результаты вычислительных экспериментов, подтверждающих высокую производительность разработанного алгоритма.

Издание: ВЫЧИСЛИТЕЛЬНЫЕ МЕТОДЫ И ПРОГРАММИРОВАНИЕ
Выпуск: Т. 22 № 4 (2021)
Автор(ы): Цымблер Михаил Леонидович, Гоглачев Андрей Игоревич
Сохранить в закладках