Архив статей журнала
В данной работе представлена методика автоматизированной классификации нормативной документации на основе кластеризации эмбеддингов. Актуальность исследования обусловлена значительным объемом нормативных документов в промышленности и информационных технологиях, что затрудняет их систематизацию и анализ. Предложенный подход включает этапы предобработки текстов, извлечения эмбеддингов, кластеризации с использованием агломеративного метода и интерпретации результатов с помощью генеративных языковых моделей. В ходе экспериментов проведена оценка различных моделей для векторизации текстов, а также выполнена кластеризация с применением косинусной метрики. Результаты показали, что метод обеспечивает высокую точность выделения тематических групп, превосходя традиционные алгоритмы на основе частотного анализа (BoW, TF-IDF).