Архив статей журнала
В статье рассматривается подход к выявлению противоречий между нормативными документами на естественном языке с использованием методов искусственного интеллекта. Внедрение «умных» стандартов, которые позволяют машинам автоматически понимать и применять нормативные требования, является важным этапом цифровой трансформации, однако на практике интеграция таких стандартов с традиционными нормативными документами неизбежна. При этом наличие противоречий между разными стандартами существенно усложняет их автоматическое применение и вызывает сбои в работе информационных систем. Автором предлагается новый подход к автоматизированному выявлению потенциальных противоречий, основанный на кластеризации текстовых данных с последующим анализом дисперсии эмбеддингов нормативных положений. Используется модель больших языковых эмбеддингов «text-embedding-ada-002», что позволяет преобразовать тексты в семантические векторные представления. Далее применяются методы кластеризации и количественный анализ внутрикластерной дисперсии, а также метрика оптимального транспорта (Earth Mover’s Distance) для оценки различий между группами нормативных положений. Проведённые эксперименты на синтетических данных показали, что предложенный подход способен выявлять более 70% искусственно внесённых противоречий, однако выявлено значительное количество ложноположительных результатов, обусловленных влиянием различий в структуре и мета-данных документов. Полученные предварительные результаты демонстрируют возможность автоматизированного выделения областей потенциальных противоречий для последующего экспертного анализа. Практическая значимость работы заключается в создании программного решения, позволяющего автоматизировать поиск противоречий в больших массивах нормативной документации и обеспечить корректность взаимодействия как между системами, так и между человеком и машиной. Материалы статьи будут полезны разработчикам интеллектуальных систем автоматизации нормативной документации и специалистам, занимающимся цифровой трансформацией в сфере стандартизации.
В данной работе представлена методика автоматизированной классификации нормативной документации на основе кластеризации эмбеддингов. Актуальность исследования обусловлена значительным объемом нормативных документов в промышленности и информационных технологиях, что затрудняет их систематизацию и анализ. Предложенный подход включает этапы предобработки текстов, извлечения эмбеддингов, кластеризации с использованием агломеративного метода и интерпретации результатов с помощью генеративных языковых моделей. В ходе экспериментов проведена оценка различных моделей для векторизации текстов, а также выполнена кластеризация с применением косинусной метрики. Результаты показали, что метод обеспечивает высокую точность выделения тематических групп, превосходя традиционные алгоритмы на основе частотного анализа (BoW, TF-IDF).