Разработка качественных инструментов автоматического определения уровней текстов по шкале CEFR позволяет создавать учебные и проверочные материалы более быстро и объективно. В данной работе авторы исследуют два типа современных моделей текста: лингвистические характеристики и эмбеддинги больших языковых моделей для задачи классификации русскоязычных текстов по шести уровням CEFR: A1—C2 и трём укрупнённым категориям A, B, C. Два вида моделей явным образом представляет текст в виде вектора числовых характеристик. При этом разделение текста на уровни рассматривается как обычная задача классификации в области компьютерной лингвистики. Эксперименты проводились с собственным корпусом из 1904 текстов. Лучшее качество достигается rubert-base-cased-conversational без дополнительной адаптации при определении как шести, так и трёх категорий текста. Максимальное значение F-меры для уровней A, B, C равно 0,77. Максимальное значение F-меры для прогнозирования шести категорий текста равно 0,67. Качество определения уровня текста больше зависит от модели, чем от алгоритма классификации машинного обучения. Результаты отличаются друг от друга не более чем на 0,01-0,02, особенно это касается ансамблевых методов.
Сайт https://scinetwork.ru (далее – сайт) работает по принципу агрегатора – собирает и структурирует информацию из публичных источников в сети Интернет, то есть передает полнотекстовую информацию о товарных знаках в том виде, в котором она содержится в открытом доступе.
Сайт и администрация сайта не используют отображаемые на сайте товарные знаки в коммерческих и рекламных целях, не декларируют своего участия в процессе их государственной регистрации, не заявляют о своих исключительных правах на товарные знаки, а также не гарантируют точность, полноту и достоверность информации.
Все права на товарные знаки принадлежат их законным владельцам!
Сайт носит исключительно информационный характер, и предоставляемые им сведения являются открытыми публичными данными.
Администрация сайта не несет ответственность за какие бы то ни было убытки, возникающие в результате доступа и использования сайта.
Спасибо, понятно.