ПОИСК ОПТИМАЛЬНОГО НАБОРА БУКВ ДЛЯ СТИЛЕВОЙ КЛАССИФИКАЦИИ ХУДОЖЕСТВЕННЫХ ТЕКСТОВ МЕТОДОМ СТАТИСТИЧЕСКИХ ИНДЕКСОВ (2023)

В статье рассматривается проблема улучшения методов стилевой классификации русскоязычных текстов. В качестве возможного направления исследований предложен метод оптимизации набора (множества) букв, применяемого для вычисления статистических индексов текстов. Для оптимизации и контроля результатов использованы поэтические и прозаические художественные тексты на русском языке. Объем текстов составлял порядка 300 тысяч знаков при оптимизации и 100 тысяч знаков при контрольной оценке. Для вычисления статистических индексов рассчитывались частотности биграмм и триграмм букв. При оптимизации опробован также и вариант совместного использования индексов биграмм и триграмм. В статье дано краткое описание метода статистических индексов, приведены применявшиеся в исследовании алгоритм пошаговой оптимизации, вид возможной оптимизационной функции и формула для нахождения границы классификации. Показано, что оптимизация набора букв улучшает классификацию по сравнению с вариантом использования как полного набора букв, так и набора из гласных букв в применении к задаче автоматического различения поэтических и прозаических художественных текстов на русском языке. Проведено сравнение результатов классификации по предложенной формуле границы классификации с результатами расчетов по классификации методом ROC-кривых. В итоге для разных сочетаний статистических индексов и способов определения границы классификации интервал верной классификации составил 72-74 % для набора, включающего все буквы, 82-86 % для набора, включающего только гласные буквы, и 80.5-92.5 % для разных наборов букв, полученных при оптимизации.

Тип: Статья
Автор (ы): Горбич Леонид Геннадьевич
Ключевые фразы: ROC-КРИВАЯ, МЕТОД ОПТИМИЗАЦИИ, машинное обучение, СТАТИСТИЧЕСКИЙ ИНДЕКС, АВТОМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ ТЕКСТОВ, НАБОР БУКВ, СТИЛЕВАЯ КЛАССИФИКАЦИЯ

Идентификаторы и классификаторы

УДК
81-112. Диахроническая лингвистика (историческая лингвистика
81-139. Другие методы
eLIBRARY ID
60033817
Текстовый фрагмент статьи