ИЗВЕСТИЯ ЮФУ. ТЕХНИЧЕСКИЕ НАУКИ
Архив статей журнала
Статья посвящена актуальной проблеме представления и классификации длинных текстовых документов с использованием трансформеров. Методы представления текста, основанные на трансформерах, не могут эффективно обрабатывать длинные последовательности из-за их процесса самовнимания, который масштабируется квадратично с длиной последовательности. Это ограничение приводит к высокой вычислительной сложности и невозможности применения таких моделей для обработки длинных документов. Для устранения этого недостатка, в статье разработан алгоритм на основе трансформера SBERT, который позволяет построить векторное представление длинных текстовых документов. Ключевая идея алгоритма заключается в применении двух различных процедур к созданию векторного представления: первая основана на сегментации текста и усреднении векторов сегментов, а вторая - на конкатенации векторов сегментов. Такая комбинация процедур позволяет сохранить важную информацию из длинных документов. Для проверки эффективности алгоритма был проведен вычислительный эксперимент на группе классификаторов, построенных на основе предложенного алгоритма, и группе известных методов векторизации текста, таких как TF-IDF, LSA и BoWC. Результаты вычислительного эксперимента показали, что классификаторы на основе трансформеров в целом достигают лучших результатов по точности классификации по сравнению с классическими методами. Однако, это преимущество достигается за счет более высокой вычислительной сложности и, соответственно, более длительного времени обучения и применения таких моделей. С другой стороны, классические методы векторизации текста, такие как TF-IDF, LSA и BoWC, продемонстрировали более высокую скорость работы, что делает их более предпочтительными в случаях, когда предварительное кодирование не допускается и требуется работа в режиме реального времени. Предложенный алгоритм обработки и представления длинных документов доказал свою высокую эффективность и привел к увеличению точности классификации набора данных BBC на 0,5% по критерию F1.