ПРИМЕНЕНИЕ АЛГОРИТМА КЛАСТЕРИЗАЦИИ ДЛЯ РАСПРЕДЕЛЕНИЯ УЧЕБНЫХ ДИСЦИПЛИН ПО ТЕМАТИЧЕСКИМ ОБЛАСТЯМ (2023)
В работе приведен подход разбиения учебных дисциплин образовательного направления по тематическим областям с помощью машинного обучения. Предложен алгоритм кластеризации на основе векторного представления дескрипторных сущностей дисциплин. Выполнены процессы предобработки данных, обучения, подбора параметров и использования модели, проведены эксперименты с различными методами кластеризации. Представлен способ назначения названий для полученных областей. Проведен эксперимент на дисциплинах образовательного направления для проверки эффективности модели.
Идентификаторы и классификаторы
K-means один из самых популярных алгоритмов кластеризации. Он ищет k число кластеров путем минимизации суммарного квадратичного отклонения между точками данных и центроидами кластеров. Алгоритм итеративно обновляет положение центроид. В результате экспериментов алгоритм DBSCAN не смог корректно выделить кластеры и отнес все текстовые описания в область с меткой –1, что обозначает выбросы или шум. Это означает, что алгоритм не подходит для данного набора данных или требует более тщательной настройки параметров. AgglomerativeClustering справился с задачей кластеризации, но определил не очень хорошо интерпретируемые области. Алгоритм K-means продемонстрировал наилучшие результаты среди всех протестированных алгоритмов. Он выделил интерпретируемые области и достиг наивысшего значения силуэта и поэтому именно он будет использоваться в алгоритме распределения учебных дисциплин по тематическим областям. В таблице 1 представлено время обучения и значение силуэта для каждой протестированной модели.
Список литературы
-
Теремшенко А. В., Канева О. Н. Алгоритм формирования дескрипторной сущности вакансии профессиональной области деятельности // Информационный бюллетень Омского научно-образовательного центра ОмГТУ и ИМ СО РАН в области математики и информатики) / отв. ред. А. В. Зыкина. Омск: Изд-во ОмГТУ, 2019. Т. 3, № 1. С. 142-145. EDN: VPRFFD
-
Scikit-learn. URL: https://scikit-learn.org/(дата обращения: 13.04.2023).
-
NLTK. URL: https://www.nltk.org/(дата обращения: 13.04.2023).
-
Проклятие размерности. URL: http://www.machinelearning.ru/wiki/index.php?title=Проклятие_размерности (дата обращения: 17.04.2023).
-
Бабаев А. М. Алгоритмы кластеризации в задачах машинного обучения // Дневник науки. 2019. № 11. URL: http://dnevniknauki.ru/images/publications/2019/11/technics/Babaev.pdf (дата обращения: 13.04.2023). EDN: KFNHSH
-
Кривенко М. П. Реконструкция осей главных компонент // Информатика и ее применения. 2018. Т. 12, № 1. С. 71-77. EDN: TGSERP
Выпуск
Другие статьи выпуска
Предложен метод расчета температурного поля с фазовым переходом. Использован метод конечных элементов. Задача решена в трехмерной постановке с учетом зависимости теплофизических характеристик материалов от температуры. Данная методика основана на введении эквивалентного коэффициента теплоемкости материала в зоне фазового перехода. Произведен тестовый расчет нестационарного температурного поля МКЭ таяния массы льда и сравнение его с аналитическим расчетом. Получено удовлетворительное совпадение результатов. Указанная методика реализована и используется для выполнения нестационарных температурных расчетов при определении глубины промерзания грунта, а также расчетов в районах вечной мерзлоты при прокладке теплотрасс и других сооружений. По этой методике разработана программа «Temper-3d», имеющая сертификат соответствия. Программа зарегистрирована в реестре программ для ЭВМ.
Для определения и извлечения сущностей и связей используются методы анализа текста, такие как метод обнаружения именованных сущностей и метод классификации ролей. Для повышения точности и эффективности извлечения применяются такие методы, как метод опорных векторов и метод условных случайных полей. Предложенный подход демонстрирует многообещающие результаты в точной и эффективной разметке образовательных материалов на математические термины.
Исследуются алгоритмы теории графов для поиска критических путей в акторных системах для определения наиболее проблемных мест. Используется алгоритм преобразования диаграммы процессов в направленный граф для изучения и улучшения работы моделей бизнес-процессов. Исследуются муравьиные алгоритмы для определения использования частоты узла графа в кратчайших путях между другими узлами.
Исследуется задача разработки краткого описания текста веб-страницы. Краткое описание создано за счет использования архитектуры машинного обучения Transformer, которая в предварительно обученном состоянии позволяет суммаризировать текст. По ходу реализации исследована модель генерирующего реферирования текста. Исследованы возможности модели, за счет каких особенностей она способна обрабатывать и аннотировать текст. Проанализированы результаты работы модели и сравнены с итогами работы других моделей реферирования, благодаря чему объясняется выбор изученной модели.
В работе рассматривается применение имитационного моделирования для оптимизации процессов производства катализаторов. Рассматриваются формулировка и решение задача по построению имитационной модели на базе производства. На основе построенной модели проведено несколько экспериментов. Выполнен анализ результатов.
Издательство
- Издательство
- ОмГТУ
- Регион
- Россия, Омск
- Почтовый адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- Юр. адрес
- 644050, Российская Федерация, г. Омск, пр-т Мира, д. 11
- ФИО
- Корчагин Павел Александрович (Ректор )
- E-mail адрес
- info@omgtu.ru
- Контактный телефон
- +7 (381) 2653407
- Сайт
- https://omgtu.ru/