КЛАССИФИКАЦИЯ НОРМАТИВНОЙ ДОКУМЕНТАЦИИ С ИСПОЛЬЗОВАНИЕМ КЛАСТЕРИЗАЦИИ ЭМБЕДДИНГОВ: МЕТОДИКА И ПРЕДВАРИТЕЛЬНЫЕ РЕЗУЛЬТАТЫ (2025)

В данной работе представлена методика автоматизированной классификации нормативной документации на основе кластеризации эмбеддингов. Актуальность исследования обусловлена значительным объемом нормативных документов в промышленности и информационных технологиях, что затрудняет их систематизацию и анализ. Предложенный подход включает этапы предобработки текстов, извлечения эмбеддингов, кластеризации с использованием агломеративного метода и интерпретации результатов с помощью генеративных языковых моделей. В ходе экспериментов проведена оценка различных моделей для векторизации текстов, а также выполнена кластеризация с применением косинусной метрики. Результаты показали, что метод обеспечивает высокую точность выделения тематических групп, превосходя традиционные алгоритмы на основе частотного анализа (BoW, TF-IDF).

Издание: МЕХАТРОНИКА, АВТОМАТИКА И РОБОТОТЕХНИКА
Выпуск: № 15 (2025)
Автор(ы): Теремов Иван Алексеевич
Сохранить в закладках