Архив статей

Автор Мансур М. А. (Mansur M. A.)

Работы: 1 Библиотека: 1 Блог: 0

Открыть профиль Написать автору

Фильтры 1

АЛГОРИТМ НА ОСНОВЕ ТРАНСФОРМЕРОВ ДЛЯ КЛАССИФИКАЦИИ ДЛИННЫХ ТЕКСТОВ (2024)

Выпуск: № 3 (2024)

Авторы: Мансур М. А.

Статья посвящена актуальной проблеме представления и классификации длинных текстовых документов с использованием трансформеров. Методы представления текста, основанные на трансформерах, не могут эффективно обрабатывать длинные последовательности из-за их процесса самовнимания, который масштабируется квадратично с длиной последовательности. Это ограничение приводит к высокой вычислительной сложности и невозможности применения таких моделей для обработки длинных документов. Для устранения этого недостатка, в статье разработан алгоритм на основе трансформера SBERT, который позволяет построить векторное представление длинных текстовых документов. Ключевая идея алгоритма заключается в применении двух различных процедур к созданию векторного представления: первая основана на сегментации текста и усреднении векторов сегментов, а вторая - на конкатенации векторов сегментов. Такая комбинация процедур позволяет сохранить важную информацию из длинных документов. Для проверки эффективности алгоритма был проведен вычислительный эксперимент на группе классификаторов, построенных на основе предложенного алгоритма, и группе известных методов векторизации текста, таких как TF-IDF, LSA и BoWC. Результаты вычислительного эксперимента показали, что классификаторы на основе трансформеров в целом достигают лучших результатов по точности классификации по сравнению с классическими методами. Однако, это преимущество достигается за счет более высокой вычислительной сложности и, соответственно, более длительного времени обучения и применения таких моделей. С другой стороны, классические методы векторизации текста, такие как TF-IDF, LSA и BoWC, продемонстрировали более высокую скорость работы, что делает их более предпочтительными в случаях, когда предварительное кодирование не допускается и требуется работа в режиме реального времени. Предложенный алгоритм обработки и представления длинных документов доказал свою высокую эффективность и привел к увеличению точности классификации набора данных BBC на 0,5% по критерию F1.

Сохранить в закладках

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.

Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.

Все права на товарные знаки принадлежат их законным владельцам!

Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.

Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.

Спасибо, понятно.

Рубрика:

Наведите камеру на QR-код, чтобы открыть моб. версию журнала.

Главный редактор

Курейчик Владимир Викторович