СРАВНИТЕЛЬНЫЙ АНАЛИЗ МЕТОДОВ ПОСТРОЕНИЯ МАТЕМАТИЧЕСКИХ МОДЕЛЕЙ ФУНКЦИОНИРОВАНИЯ ОБЪЕКТА С ПРИМЕНЕНИЕМ МАШИННОГО ОБУЧЕНИЯ (2023)
Предметом данного исследования является технический объект, работа которого определяется множеством факторов, а качество функционирования характеризуется некоторым показателем. Требуется построить математическую модель, связывающую этот показатель со значениями факторов. В качестве примера исследуется влияние различных факторов на эффективность работы горелочных устройств (нагрузки, расхода воздуха, метана и биогаза, составов топлива и окислителя и других). Эффективность (качество функционирования) горелочного устройства оценивается по температуре дымовых газов. Задача решается методами машинного обучения, поскольку классические методы регрессионного анализа показали недостаточную точность. В настоящей статье исследуется эффективность метода опорных векторов, случайного леса и бустинга деревьев решений. Для численных расчетов использована локализованная версия 13.3 системы Statistica. Все три подхода машинного обучения показали существенное повышение точности модели на тестовой выборке. Наилучшие результаты в рассматриваемом примере дал метод бустинга деревьев решений. Рекомендуемая технология построения модели, обеспечивающая необходимую точность прогнозирования, сводится вначале к апробации классического регрессионного анализа (если полученная модель обеспечит необходимую точность, то она предпочтительна с точки зрения ее интерпретируемости). При недостаточной точности используются три рассмотренных метода машинного обучения, вместе с тем важен подбор параметров каждого из них, который, с одной стороны, обеспечивал бы необходимую точность, а с другой - не приводил бы к переобучению модели. Полученная модель может быть использована для оценки влияния различных факторов на эффективность работы технического объекта, а также для прогнозирования качества его функционирования, в частности, температуры дымовых газов.
Идентификаторы и классификаторы
Эффективность функционирования рассматриваемого горелочного устройства, по мнению экспертов, определялась 20 факторами. Три пары показателей оказались связанными линейными зависимостями, таким образом, три фактора были исключены из рассмотрения (табл. 1). Также исследовалось наличие корреляционных связей между оставшимися 17 показателями. Сильная корреляция (выборочный коэффициент корреляции r > 0,9) имеет место между парами показателей Х4–Х5, Х4–Х9, Х5–Х9, Х6–Х7, Х6–Х11.
Однако, по предложению экспертов, все эти показатели были учтены в расчетах. Наличие выбросов в исходных данных оценивалось приближенно по диаграммам рассеяния между парами показателей. Всего из 309 наблюдений обнаружено 9 выбросов. Таким образом, число наблюдений равно 300. По этим данным строилась регрессионная модель с учетом ее мультиколлинеарности (наличия сильных корреляций между факторами). Использовалась гребневая регрессия. При этом незначимые по критерию Стьюдента факторы отсеивались: использовался алгоритм пошаговой регрессии.
Список литературы
- Клячкин В.Н., Крашенинников В.Р., Кувайскова Ю.Е. Прогнозирование и диагностика стабильности функционирования технических объектов. М.: РУСАЙНС, 2020. 200 с. EDN: XCOHWU
- Гудфеллоу Я., Бенджио И., Курвилль А. Глубокое обучение; [пер. с англ.]. М.: ДМК Пресс, 2018. 652 с.
- Hanin B. Universal function approximation by deep neural nets with bounded width and ReLU activations. Mathematics, 2019, no. 7, art. 992. DOI: 10.3390/math7100992 EDN: UGUURO
- Kovalnogov V., Fedorov R., Klyachkin V., Generalov D., Kuvayskova Y., Busygin S. Applying the random forest method to improve burner efficiency. Mathematics, 2022, no. 10, art. 2143. DOI: 10.3390/math10122143 EDN: CLGZKL
- Bavazeer S.A., Baakeem S.S., Mohamad A.A. A New radial basis approach based on Hermite expansion with respect to the shape parameter. Mathematics, 2019, no. 7, art. 979. DOI: 10.3390/math7100979 EDN: GAODOC
- Sun X., Du P., Wang X., Ma P. Optimal penalized function-on-function regression under a reproducing kernel Hilbert space framework. J. of the American Statistical Association, 2018, vol. 113, no. 524, рр. 1601ndash;1611. DOI: 10.1080/01621459.2017.1356320
- Pedregosa F., Bach F., Gramfort A. On the consistency of ordinal regression methods. J. of Machine Learning Research, 2017, no. 18, pp. 1ndash;35.
- Chen R., Paschalidis I. A robust learning approach for regression models based on distributionally robust optimization. J. of Machine Learning Research, 2018, no. 19, pp. 1ndash;48.
- Devijver E., Perthame E. Prediction regions through inverse regression. J. of Machine Learning Research, 2020, no. 21, pp. 1ndash;24.
-
Генрихов И.Е., Дюкова Е.В., Журавлёв В.И. Построение и исследование полных решающих деревьев для задачи восстановления регрессии в случае вещественнозначной информации // Машинное обучение и анализ данных. 2017. Т. 3. № 2. С. 107ndash;118. DOI: 10.21469/22233792.3.2.02 EDN: YPSZJK
-
Park Ch. Jump gaussian process model for estimating piecewise continuous regression functions. J. of Machine Learning Research, 2022, no. 23, рр. 1ndash;37.
Выпуск
Другие статьи выпуска
Cтатья посвящена использованию компьютерного зрения для автоматизации процесса выравнивания на конвейерной линии упаковок с пищевым содержимым в картонных коробках. Данный процесс необходим для предотвращения появления неплотно закрытых коробок вследствие неравномерного распределения их содержимого. Объектом исследования является комбинация стереосистемы и алгоритмов искусственного интеллекта, решающих задачу детектирования и позиционирования объекта по 2D-изображению для выравнивания дельта-манипулятором. Такой манипулятор создан специально для автоматизации процесса выравнивания содержимого упаковок. Для задачи позиционирования был реализован алгоритм детектирования объектов на изображении, работающий в режиме реального времени. Обнаруженные 2D-участки изображения транслируются на стереосистему, формируя частичные карты глубин. Результатом является быстрый и точный алгоритм получения 3D-координаты объекта. Для определения текущего состояния содержимого упаковки и оптимизации количества операций выравнивания был реализован бинарный классификатор, который сообщает системе два типа статуса: объект выровнен, объект не выровнен. Для решения задачи собран специальный набор данных, состоящий из последовательности изображений частотой 30 кадров в секунду и протяженностью 1 час. В этом наборе на каждом изображении были размечены прямоугольными рамками упаковки с пищевым содержимым и отмечено их состояние - упаковка выровнена или нет. Для разметки использовалась программа с открытым исходным кодом LabelImg, предоставляющая графический интерфейс для разметки изображений, которая используется в дальнейшем обучении. Кроме того, создана программа, реализующая предложенный алгоритм на языке Python 3.6 с использованием интегрированной среды Jupyter Lab для операционной системы Ubuntu 18.04. Приведены результаты эксперимента по использованию предложенного алгоритма для оценки 2D-позиции объекта и текущего состояния детектируемого объекта. Для оценки качества алгоритма использованы метрика общей средней точности обнаружения объектов, а также метрики классификации - точность и полнота для задачи определения статуса содержимого упаковки.
Для выравнивания полуфабрикатов на скоростной конвейерной линии разработана система автоматического управления, ключевое место в которой занимают робот-манипулятор ДР-1 и рабочий орган, осуществляющий надавливание и оказывающий вибрационное воздействие. Система создана для повышения эффективности линии и снижения доли брака. В ее состав входят бортовой микроконтроллер STM32F407VG (тактовая частота 168 МГц, 192 Кб ОЗУ, 1 Мб ПЗУ) и управляющий компьютер на базе процессора Intel Atom (4 Гб ОЗУ, 32 Гб ПЗУ). Для микроконтроллера разработано ПО на языке программирования С++14 в среде CubeIDE. Операционная система реального времени FreeRTOS используется для обработки микроконтроллером нескольких задач в псевдопараллельном режиме: управление электродвигателями, обработка данных с датчиков, взаимодействие с управляющим компьютером. Для управляющего компьютера реализовано ПО на языке программирования С++11, используется операционная система Linux Ubuntu 18.04 LTS, программная платформа ROS. Управляющий компьютер предоставляет оператору системы автоматического управления интерфейс, написанный на языке программирования Python с использованием библиотеки KivyMD. Однако наиболее интересная часть ПО - решение задач прямой и обратной кинематики для дельта-манипулятора и алгоритм выравнивания полуфабрикатов. Задачи прямой и обратной кинематики являются решенными в общем виде. Приводятся особенности их реализации для робота-манипулятора ДР-1. Для формализации алгоритма выравнивания полуфабрикатов проводились эксперименты. Было необходимо выполнить около 110 выравниваний в минуту, а это требовало поиска наиболее эффективной траектории перемещения рабочего органа. В статье приводятся результаты испытаний ПО системы автоматического управления. Рассматриваются различные случаи расположения коробок с полуфабрикатами. Оцениваются сохранность полуфабрикатов и упаковки и эффективность рассматриваемого алгоритма. Применение предложенного ПО системы автоматического управления позволило повысить производительность линии и сократить долю брака.
Настоящая работа посвящена развитию теории испытаний в целом и опытно-теоретического метода в частности. Авторами разработан алгоритм синтеза модели объекта испытаний, основанный на решении уравнения непараметрической идентификации динамической системы с использованием гипердельтной аппроксимации и преобразования Лапласа. В отличие от существующих данный алгоритм применим для входных и выходных сигналов произвольной формы и физических величин. Кроме того, он не требует больших вычислительных ресурсов. Алгоритм позволяет формализовать многомерную зависимость между факторами и тактико-техническими характеристиками объекта испытаний. С помощью языков программирования C++ и Python реализованы математическая библиотека идентификации модели объекта испытаний и приложение с графическим пользовательским интерфейсом для автоматизации расчетов. Представленное программное решение выполнено по аналогии с классическими моделями машинного обучения. Для обоснования возможности применения разработанного алгоритма проведен вычислительный эксперимент на различных типах входных и выходных сигналов (периодических, непериодических и случайных) с разной точностью гипердельтной аппроксимации. По результатам вычислительного эксперимента получены рекомендации по использованию алгоритма, в частности, при высоких амплитудах выходного сигнала следует увеличить количество начальных моментов гипердельтной апроксимации.
Работа посвящена оптимизации построения маршрутов перевозки в сфере логистики грузов. Существуют случаи, когда перевозка груза между двумя городами одной транспортной компанией оказывается дороже, чем перевозка разными компаниями с перевалкой груза в промежуточных точках. В информации о таких сложных маршрутах заинтересованы как транспортные компании, которые могут найти пути удешевления маршрутов, так и простые пользователи, ищущие варианты более дешевой доставки груза. Предмет данного исследования - автоматизация построения наиболее выгодного сложного маршрута перевозки груза, исполняемого несколькими автомобильными и железнодорожными перевозчиками и проходящего через промежуточные пункты, в которых осуществляется перевалка (передача груза). Отличительной особенностью метода исследования является то, что он основан на анализе данных с сайтов калькуляторов компаний-перевозчиков, из которых информация о стоимости перевозки извлекается в процессе запроса динамически, и на эвристических подходах к построению сложного маршрута. Были сформулированы критерии для выбора потенциальных точек перевалки и их числа. Предложенный подход к оценке стоимости маршрута протестирован на открытых данных 40 логистических компаний, 9 конфигурациях груза и маршрутах между 171 городом. В результате предложена и протестирована новая процедура поиска сложного маршрута перевозки груза и разработан программный модуль. Тестирование показало эффективность процедуры: с помощью предложенных эвристик в 10 % случаев возможно построить сложный маршрут между городами, стоимость которого будет существенно меньше простого. Теоретическая значимость работы заключается в создании новой процедуры для решения задачи построения сложного маршрута по перевозке груза, практическая - в реализации нового модуля, который будет внедрен в действующий логистический сервис Cargotime.ru.
Активное использование систем видеонаблюдения обусловило повышение интереса к методам идентификации индивида по признакам походки. Существенным преимуществом данного способа является то, что проведение экспертиз может быть бесконтактным и удобным с точки зрения сбора материала. В настоящее время активно разрабатываются различные методики идентификации индивида по особенностям походки, однако из-за большого количества условий, влияющих на манеру движения, задача идентификации человека по походке до сих пор не имеет достаточно точного решения, поэтому актуальна разработка новых методов. В статье описывается метод идентификации индивида на кадрах видеосъемки по такому кинематическому показателю, как цикл шага. Сущность его заключается в оцифровке и количественном описании следующих параметров цикла шага: продолжительность периодов двойной опоры и переноса, частота шага и темп ходьбы. Их анализ в автоматическом режиме позволит сделать экспертный вывод о сходстве или различии двух индивидов на видеозаписях. Для реализации предложенного метода разработан программный комплекс для расчета характеристик цикла шага. Он включает в себя модуль ввода первичной информации, модуль для расчета основных характеристик цикла шага и модуль формирования отчета. Основным преимуществом данной методики и программного комплекса является возможность обработки видеоинформации с различных ракурсов, а также в случае фиксации объекта на удаленном расстоянии. Программный комплекс может быть использован при разработке компьютерной системы гибридной идентификации личности, включающей модули считывания и анализа биометрической информации, модули анализа походки при различных особенностях съемки.
Автономная навигация мобильных роботов внутри помещения привлекает внимание исследователей компьютерного зрения уже многие годы. Для решения данной задачи предложены разнообразные подходы и алгоритмы. Для выполнения заложенных в роботах алгоритмов они должны уметь оценивать трехмерную структуру окружающей среды. Однако визуальные датчики, такие как обычные камеры, не позволяют получать достаточное количество информации из-за ограниченного угла обзора. Авторы данного исследования предлагают комплексный подход для трехмерного моделирования внутренней среды. Система компьютерного зрения, рассматриваемая в работе, состоит из всенаправленной камеры и источника структурированного света. Всенаправленная камера обеспечивает широкий спектр информации, в то время как лазерный луч легко обнаружить и извлечь для дальнейшего анализа. Для получения достоверных результатов измерений система должна быть откалибрована. С этой целью предлагается усовершенствованный метод внешней калибровки. Рассматривается реконструкция внутренней среды помещения на базе аналогичной системы компьютерного зрения, а также алгоритма, включающего в свой состав нейронную сеть семантической сегментации. Для выполнения алгоритмов методов калибровки и трехмерного моделирования требуется одно входное изображение. Предложенные методы в значительной степени ускоряют процесс обработки данных без потери точности в измерениях. Их экспериментальная оценка осуществлялась с помощью данных, генерируемых посредством разработанного авторами ранее симулятора.
Работа посвящена синтезу интерактивных образовательных ресурсов, которые могут применяться для организации самостоятельной или дистанционной работы в высших учебных заведениях. В качестве формата образовательных ресурсов предлагается PDF. Для их генерации применяется свободно распространяемая настольная издательская система LuaLaTeX. Она может использоваться и как программа, установленная на компьютере, и как удаленный веб-сервис. Для достижения цели работы применены методы процедурного программирования трех языков программирования. Скриптовый язык Lua использован для определения заданий, их перемешивания и формирования карты ответов. Язык TeX в составе системы LuaLaTeX - для оформления заданий и добавления в документ интерактивных элементов. Мультипарадигменный язык Java Script - для обеспечения возможности реализации интерактивности при работе с документами формата PDF, включая получение результатов и демонстрацию правильных ответов. Предложенный в работе способ синтеза образовательных ресурсов реализует перемешивание заданий и вариантов ответов в случайном порядке, использование для оформления любых шрифтов, установленных в системе, и всех возможностей оформления контента, предоставляемых LuaLaTeX. Практическая значимость предлагаемого решения заключается в повышении эффективности процессов самостоятельной работы обучающихся за счет использования интерактивных образовательных ресурсов, синтезированных предложенным в работе способом, который базируется на применении LuaLaTeX. Система реализует весь потенциал возможностей по оформлению контента любой сложности аналогично системе LaTeX.
В статье рассматривается возможность построения простой и абсолютно устойчивой явной разностной схемы для уравнения теплопроводности. Явные схемы для уравнения теплопроводности были фактически вытеснены из практики программирования абсолютно устойчивыми неявными схемами. Однако неявные схемы плохо распараллеливаются, поэтому программы для решения задач теплопроводности, диффузии, подземной гидродинамики и т.п. на громадных пространственных сетках с использованием многопроцессорных вычислительных систем требуют использования явных разностных схем. Это особенно справедливо для многопроцессорных систем терафлопной и выше производительности, объединяющих сотни процессоров. При этом явные схемы должны быть абсолютно устойчивыми или, по крайней мере, их условие устойчивости должно быть не жестче такого же для гиперболических уравнений. В работе предложены модификации явных разностных схем, аппроксимирующих параболическое уравнение и обладающих свойством абсолютной счетной устойчивости. Счетная устойчивость решения, получаемого на каждом временном шаге классической явной схемой, достигается быстрым преобразованием Фурье и последующим синтезом Фурье с регуляризацией по А.Н. Тихонову. При вычислении прямого и обратного преобразований Фурье использован алгоритм Кули-Тьюки быстрого преобразования Фурье. Приведены результаты сопоставления численных расчетов модельных задач с аналитическими решениями. Абсолютная устойчивость предлагаемых явных схем для уравнения теплопроводности позволяет широко использовать их для параллельных вычислений.
Работа посвящена автоматизации информационных процессов научных исследований живучести объектов добычи газа в условиях обводнения скважин. Предложена структура автоматизированной системы научных исследований живучести объектов добычи газа, которая включает математический аппарат для моделирования объектов «пласт-скважина», процессов обводнения и средств обеспечения живучести - различных технологий борьбы с обводнением. Существующее на рынке прикладное ПО для выполнения гидродинамического моделирования или гидравлических расчетов не позволяет исследовать живучесть объектов добычи газа, поэтому разработано новое информационное и программное обеспечение автоматизированной системы научных исследований. Оно дает возможность оценивать показатели живучести объектов добычи газа в условиях обводнения и помогает специалисту принимать решения по ее повышению за счет применения технологий борьбы с обводнением на скважинах. Компоненты автоматизированной системы создавались на основе системного анализа, теории гидравлики и нефтегазовой механики, методов объектно-ориентированного программирования, статистического анализа, теорий графов, моделирования и управления, метода узлового анализа и др. В результате прогностического моделирования рассчитывается коэффициент живучести объектов добычи газа с учетом свойств результативности, ресурсоемкости при использовании средств обеспечения живучести. На основе заданного критерия ПО системы предлагает наилучшую технологию борьбы с обводнением объекта добычи газа.
В статье рассмотрена процедура проектирования методом наилучшей равномерной (чебышевской) аппроксимации оптимального нерекурсивного полосового цифрового фильтра с конечно-импульсной характеристикой (КИХ-фильтра). Фильтр предназначен для решения задачи выделения геомагнитных пульсаций типа Pc5 из набора показателей измерений геомагнитного поля. Этот тип пульсаций выбран в связи с доступностью 1-секундных данных в широко разнесенной сети геомагнитных наземных обсерваторий, имеющих стандартизированную геофизическую наземную аппаратуру. Данные, обработанные соответствующим образом, можно использовать, например, при детальном анализе свойств возмущений магнитного поля Земли в диапазоне длиннопериодных пульсаций, а также характера взаимодействия волн и частиц в магнитосфере. Результаты анализа можно использовать, в частности, при расчете прогноза космической погоды, что обусловливает актуальность настоящей работы. Решение задачи выделения пульсаций Pc5 производится путем пропускания исходного набора данных через полосовой КИХ-фильтр, обладающий требуемыми характеристиками, зависящими от диапазона периода пульсаций Pc5, - 150-600 секунд. Отсюда следуют границы полосы пропускания, равные 1.7-6.7 мГц. Выбор нерекурсивного полосового КИХ-фильтра обусловлен возможностью обеспечения линейной фазочастотной характеристики, исключающей фазовые искажения на выходе КИХ-фильтра, а также устойчивостью по определению данного типа фильтров. Первое условие также гарантирует и отсутствие требований к фазочастотной характеристике КИХ-фильтра. Работоспособность полученного цифрового фильтра продемонстрирована на примере обработки реального набора данных измерений состояния геомагнитного поля, полученного с геомагнитной обсерватории Lycksele (Швеция), входящей в международную сеть INTERMAGNET. Проектирование полосового КИХ-фильтра и расчеты проводились в MATLAB R2022b.
В статье рассматривается cтатистический эксперимент по проверке практической сходимости в одной задаче субмодулярного программирования. Предлагается постановка задачи по максимизации суммы эффективности группового назначения. Вводится понятие смешанного решения транспортной задачи о групповом назначении, когда ресурсные ограничения в среднем выполняются. Показано, что определение смешанных решений транспортной задачи о групповом назначении может быть сведено к задаче субмодулярного программирования, решаемой методом ветвей и границ с верхними оценками, основанными на субмодулярности транспортной задачи с ограничениями в виде равенств по столбцам. Полиномиальность ε-оптимальной версии метода ветвей и границ доказана лишь в отношении классической схемы решения многомерной задачи о рюкзаке. Авторы применили схему, использующую специфику задачи, поэтому для проверки гипотезы полиномиальности необходимы дальнейшие усилия, в том числе и при помощи статистических экспериментов. Основным результатом являются разработка численной реализации ε-оптимальной версии метода ветвей и границ на высокоуровневом языке программирования С++ и проведение статистического эксперимента по проверке практической сходимости самого алгоритма на основании статической транспортной задачи о групповом назначении по эффективности назначения. По результатам анализа численного эксперимента установлено, что для рассматриваемой задачи процент раскрытых в ходе работы ε-оптимального алгоритма вершин от общего числа вершин в орграфе при увеличении размерности убывает довольно быстро, что говорит о достаточной эффективности алгоритма. Гипотеза о полиномиальности не подтвердилась, так как используется не классический алгоритм решения целочисленной задачи, а специфика поставленной задачи.
В статье предложен метод построения оптимального управления одним классом нелинейных систем по квадратичному критерию с классическим ограничением типа неравенства на управляющее воздействие. Данный метод является дальнейшим развитием метода последовательных приближений. Модификация указанного метода позволила установить существование оптимального управления рассматриваемой задачи и синтезировать собственно оптимальное управление. Ключевым для построения оптимального управления является вопрос о сходимости метода последовательных приближений. В статье приведены условия сходимости этого метода, которые являются предельно простыми и естественными. Кроме того, предложенная схема приводит к вычислительной процедуре, предполагающей построение последовательности решений двухточечных краевых задач. Это, как известно, создает некоторые вычислительные трудности. Избежать их позволяет приведенная в работе модифицированная схема, которая дает управление, близкое к оптимальному. Показано, что разработанная схема сводит исходную задачу к последовательности не зависящих друг от друга задач Коши, решение которых легко получить простейшими методами численного анализа. Описаны условия сходимости модифицированной схемы. Для иллюстрации предложенного метода приводятся результаты вычислительного эксперимента по построению оптимального управления для управляемой системы, характеризуемой уравнением Ван дер Поля. Оказалось, что в данном случае именно модифицированная схема дает оптимальное управление.
Бизнес-анализ является одним из ключевых инструментов управления, позволяющих получать достоверную картину текущего состояния дел на предприятии по всем направлениям деятельности. Для обеспечения этого процесса в любой компании в качестве показателей ее работы используются различные данные. Источником данных прежде всего являются интегрированные информационные системы. Эти системы могут использовать либо имеющиеся в их составе инструменты бизнес-анализа, либо специализированные решения, позволяющие выполнять сложные аналитические задачи по заданной постановке. В статье рассматриваются особенности обоих подходов, их преимущества и недостатки, приводятся примеры существующих на рынке зарубежных и отечественных продуктов для бизнес-анализа. Предлагается способ построения трехмерных кубов с использованием содержащихся в системе данных на примере модуля бизнес-анализа разработанной авторами интегрированной информационной системы SciCMS. Описываются используемые методики, исходные требования и ограничения. Проведена формализация задач, рассмотрен математический аппарат построения многомерных моделей данных на основе информации из фиксированного набора нормализованных таблиц реляционной БД. Представлены примеры SQL-запросов и выходных данных. В ряде случаев (работа с нереляционной СУБД, необходимость в наличии заранее рассчитанных агрегатных значений, сложность и высокая стоимость прямых SQL-запросов и т.д.) применение описанного способа построения многомерных кубов невозможно. Решением данной проблемы в SciCMS является собственный модуль импорта и трансформации данных на основе библиотеки с открытым исходным кодом. В статье обобщены основные достоинства и недостатки предлагаемого подхода, перспективы его использования на отечественных предприятиях.
Проблема читаемости текста на естественном русском языке актуальна для людей с различными когнитивными нарушениями и для тех, кто слабо владеет языковыми знаниями, например, трудовых мигрантов и детей. Повышение доступности текстов (инструкций, указаний, рекомендаций) для указанных категорий граждан возможно путем использования автоматизированного алгоритма симплификации текста. В данном исследовании в качестве автоматизированного алгоритма симплификации используются глубокие нейронные архитектуры - трансформеры. В работе были применены следующие языковые модели: ruT5-base-absum, ruT5-base-paraphraser, ruT5_base_sum_gazeta, ruT5-base. Экспериментальные исследования проведены с использованием двух наборов данных - Института филологии и языковой коммуникации и из открытого репозитория Github. Для оценки моделей использован набор метрик: BLEU, индекс удобочитаемости Флеша, автоматический индекс удобочитаемости и разница длин предложений. С помощью тестового набора данных из перечисленных метрик извлекались статиcтические показатели, на основе которых сравнивались алгоритмы с различными параметрами обучения. Было проведено несколько экспериментов с указанными моделями, в которых использовались разные значения параметра скорости обучения для каждого набора данных, размеры батча, а также исключение из обучения дополнительного набора данных. Несмотря на различные показатели метрик при ручном сравнении выходы моделей слабо отличались друг от друга. Результаты экспериментальных исследований показали необходимость увеличения набора данных для обучения моделей, а также изменения параметров обучения моделей или использования других алгоритмов. Данное исследование является первым шагом к созданию системы поддержки принятия решений для автоматического упрощения текста и требует дальнейшего развития.
При работе в библиотеке Owlready2 языка Python с онтологиями, в которых изначально классы, индивидуумы и отношения написаны кириллицей, машина логического вывода reasoner выдает некорректные данные. Вследствие сбоя в кодировке Owlready2 дублирует онтологию, а вместо текста кириллицы появляются нечитаемые символы. Решить данную проблему предлагается путем явного задания кодировки выходных данных в файле reasoning.py, а именно cp1251, то есть стандартной 8-битной кодировки для русских версий Microsoft Windows. Сам файл находится в корневой папке программы - \Python\Python311\Lib\site-packages\owlready2\ для версии Python 3.11.0. Он и рассматривается в данной статье. Для поиска решения использован метод сравнительного анализа различных версий библиотеки Owlready2 и ее предшественника - библиотеки Owlready. Решение найдено путем сравнения команд работы с исходными данными в различных версиях библиотек Owlready. После внесения соответствующего изменения упрощается работа с онтологиями в Python, особенно при многократных запусках машины логического вывода reasoner. Становится возможным использование огромного функционала библиотеки Owlready2 для работы с русскоязычными онтологиями, например, для создания соответствующих русскоязычных баз знаний. Предложенный в статье способ может быть полезен для ИТ-специалистов, разрабатывающих информационные системы на основе онтологий предметных областей, а также при работе с онтологиями в рамках образовательного процесса в вузе.
Статья посвящена проблеме персонализации интерфейса прикладных программ к индивидуальным особенностям пользователей на основе применения нейросетевых технологий. Новизной предложенного подхода является формирование прототипа интерфейса путем подбора каждого элемента меню отдельно, позволяющего сформировать персонализированный интерфейс. Предлагается использование инструментальной среды, включающей набор компонентов интерфейсной части, из которых динамически генерируется уникальный прототип интерфейса, адаптированный под особенности каждого пользователя. В качестве инструмента для подбора компонентов интерфейса использована глубокая нейронная сеть, представленная в виде многослойного перцептрона. Входными параметрами нейронной сети являются отличительные особенности пользователей, выходными - компоненты будущего прототипа интерфейса. В качестве критериев адаптации интерфейсной части приложений выбраны профессиональные, психофизиологические характеристики пользователей, их демографические особенности, а также эмоциональное состояние. Выходными параметрами являются компоненты интерфейса: размер шрифта текста и гиперссылок, размер и расстояние между элементами веб-страницы, вид подсказок и контекстного меню, сообщения пользователю, цветовая гамма, наличие окна для поиска информации и др. В результате разработана инструментальная среда для создания персонализированных интерфейсов прикладных программ c использованием нейросетевых технологий. В ходе работы программного средства пользователи проходят оценку своих характеристик с помощью базовых тестов IТ-сферы и психологии. Для определения эмоционального тона, возраста и пола в системе используется библиотека Deepface языка Python, которая реализует алгоритм на основе обученной сверточной нейронной сети. Внедрение предложенной инструментальной среды позволит обеспечить удобное взаимодействие между пользователями и программным приложением.
Предметом исследования являются методы и алгоритмы спонтанной самосборки и самоорганизации программных систем. Среди моделей искусственной химии известны методы, допускающие самоформирование программ. Но эти методы очень специфичны и проблематичны в случае интеграции с обычными, широко распространенными и хорошо известными инструментами императивного программирования. Следовательно, необходимы другие виды инструментов, позволяющие динамически устанавливать отношения между программами или процессами. Разработанный автором данной статьи метод основан на использовании сокетов Internet, соединяющих программные единицы различных типов. Одни из этих единиц являются серверами, другие - клиентами, а третьи относятся к гибридному типу, сочетающему функции и клиента, и сервера. Программные единицы обычно рассматриваются как искусственные атомы, вступающие в реакцию друг с другом и образующие сложные вещества (то есть программы различной структуры). В данной работе предлагаются алгоритмы реализации таких программных единиц. Эти алгоритмы позволяют создавать коллективы независимых взаимодействующих единиц, способных формировать различные вычислительные конфигурации. Разработанные алгоритмы являются основой для реализации концепции, допускающей спонтанное формирование ПО в соответствии с заданными правилами при заданных условиях. В ходе экспериментов были получены вычислительные структуры, подобные полимерам реального мира и способные прокачивать данные через себя. Полученные результаты необходимы для организации полностью автоматизированного процесса разработки ПО, основанного на моделировании спонтанности. Процесс разработки программы потребует меньшего участия человека и потому станет более эффективным и экономически выгодным.
В работе определена актуальность задачи кластеризации данных в реальном масштабе времени в виде динамически встраиваемой библиотеки для СУБД PostgreSQL с открытым исходным кодом. Сформулированы условия для выполнения кластеризации в реальном времени, заключающиеся в обеспечении достаточной производительности, при которой время определения кластеров не превышает время записи данных в таблицу и ограниченное количество данных для кластеризации. Методы PostgreSQL доступны в devel-библиотеке, что позволяет использовать их для взаимодействия с данными на уровне внутреннего представления и других языков программирования, выполняющих некоторые операции быстрее, чем язык запросов SQL. Схема взаимодействия между элементами для кластеризации включает БД, в которую установлены динамически встраиваемая библиотека и расширение TimescaleDB для организации хранения данных сервером БД; интерпретатор - программная прослойка для перевода данных из внутреннего представления в типы используемого языка перед кластеризацией и, наоборот, перевода результатов кластеризации во внутренний формат для их сохранения в БД; кластеризатор - программа, выполняющая кластеризацию переданных данных согласно алгоритму. Предлагаемая библиотека представляет собой реализацию триггерной функции, которая по сути является интерпретатором, связывающим кластеризатор с БД. Если это первое срабатывание функции для таблицы, то производится выбор начальных центроидов способом, заданным пользователем. В противном случае происходит считывание данных о центроидах из таблицы. Приведена демонстрация работы библиотеки. Набор данных для кластеризации сгенерирован случайным образом с концентрацией около заданных координат центроидов. Библиотека не ограничивает пользователя как в размерности точек, которые необходимо распределить по кластерам, так и в количестве таблиц, в которые может производиться вставка данных. Ввиду вычислительной сложности алгоритмов имеется ограничение на максимальное число данных для кластеризации.
Издательство
- Издательство
- НИИ ЦПС
- Регион
- Россия, Тверь
- Почтовый адрес
- просп. Николая Корыткова, 3А
- Юр. адрес
- 170024, город Тверь, проспект Николая Корыткова, д. 3А
- ФИО
- Куприянов Кирилл Валерьевич (Руководитель)
- E-mail адрес
- info@cps.tver.ru
- Контактный телефон
- +7 (482) 2399182
- Сайт
- https://cps.tver.ru