ПРОГРАММНЫЕ ПРОДУКТЫ И СИСТЕМЫ
Архив статей журнала
В данной работе рассмотрены возможности интеграции методов обучения с подкреплением и нечеткой логики в плане повышения эффективности алгоритмов обучения с подкреплением. Главное внимание уделяется применению таких интегрированных методов в интеллектуальных системах реального времени, особенно в системах поддержки принятия решений для мониторинга и управления сложными техническими объектами. Как основа используется метод обучения с подкреплением на базе темпоральных различий, состояние среды и сигнал вознаграждения формируются с применением нечеткой логики. Представлена программная реализация и приводятся данные компьютерного моделирования методов глубокого обучения с подкреплением на основе темпоральных различий, полученные при сравнительном анализе алгоритма на основе нечеткой логики и алгоритмов на основе нейронных сетей. Показано, что основными достоинствами алгоритмов обучения с подкреплением с применением нечеткой логики являются: эффективность обучения, выражающаяся в минимизации количества эпизодов, что особенно важно, когда доступность данных для обучения ограничена или обучение в реальном времени требует быстрой адаптации; устойчивость к шуму и выбросам в данных, что важно в реальных средах, где присутствуют шумы или изменяются данные; интерпретируемость - алгоритмы с нечеткой логикой предоставляют интерпретируемые правила и выводы на основе нечеткой логики; расширение области применения обучения с подкреплением на предметные/проблемные области и задачи с непрерывным пространством состояний. Данные исследования и разработки выполняются в рамках конструирования интеллектуальных систем поддержки принятия решений реального времени. Эти системы предназначены для помощи оперативно-диспетчерскому персоналу (лицам, принимающим решения) при мониторинге и управлении сложными техническими и организационными системами в условиях достаточно жестких временных ограничений и при наличии различного типа неопределенностей (неточности, нечеткости, противоречивости) в поступающей в систему информации, то есть так называемых зашумленных данных.
В работе описывается система назначения персонифицированного лечения на основе прецедентов. Ее уникальной особенностью является извлечение прецедентов на основе гибридного метода, сочетающего извлечение прецедента на основе знаний с классическим способом K-ближайших соседей. Новизна предлагаемого подхода заключается в обеспечении максимальной гибкости и корректности в оценке сходимости прецедентов. В работе описаны информационные и программные компоненты системы. Используемая база знаний, как и все информационные ресурсы, строится по своим онтологиям, четко задающим их структуру и семантику. Это позволяет оперативно вносить изменения без привлечения программистов и переработки всей системы. Система реализована на основе мультиагентного подхода. На первом этапе с помощью базы знаний производятся предварительный расчет и приведение всех признаков к единой метрике, на втором - непосредственный расчет сходимости методом K-ближайших соседей. Сходимость историй болезни определяется совокупно по каждому признаку. На практике система позволяет максимально гибко и точно оценивать похожесть историй болезни, содержащих разнородные по типу признаки. Предлагаемое решение особенно эффективно в условиях дефицита медицинских знаний и данных, когда системы иного типа, в частности, основанные на знаниях, не могут предложить корректное решение.