АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ ТЕРМИНОВ ИЗ КОРПУСА НАУЧНЫХ СТАТЕЙ В SCP (2024)

Настоящая статья посвящена изложению теоретических и прикладных принципов работы по автоматическому извлечению терминов из научных текстов. Работа выполняется в рамках государственного задания по теме «Лингвосемиотическая гетерогенность научной картины мира: теоретическое и лингводидактическое описание». Цель исследования заключается в извлечении терминов из подготовленного корпуса научных текстов. Основной задачей на данном этапе исследования было выявить конкорданс определенной терминологии, то есть обозначить список всех употреблений заданного языкового выражения при помощи приложений для автоматической обработки текстов (АОТ). Практическим материалом являются научные статьи по направлению «Науки о Земле». Извлечение терминов при помощи автоматических систем является перспективным направлением современной прикладной лингвистики, так как существенно упрощает и ускоряет процесс создания терминосистем для узкоспециализированных предметных областей и для междисциплинарных направлений, которые находятся на стыке нескольких наук и требует определенного терминологического аппарата. Оценка рабочего процесса извлечения, проведенная с использованием большого набора данных, показала хорошую производительность для большинства типов данных. В этой статье мы описываем общую архитектуру рабочего процесса и предоставляем подробную информацию о реализации отдельных этапов. В результате проделанной работы отмечаем, что полностью перейти на автоматическую обработку текстов на данный момент весьма проблематично, так как полученные результаты не всегда являются точными и могут содержать ошибки. Перспектива исследования связана с адаптацией существующих моделей под определенные научное направления, создание цифровой языковой модели определенных терминосистем и её обучение.

Издание: ВЕРХНЕВОЛЖСКИЙ ФИЛОЛОГИЧЕСКИЙ ВЕСТНИК
Выпуск: № 3 (2024)
Автор(ы): Падерина Татьяна Сергеевна
Сохранить в закладках