ISSN 2499-9679
Язык: ru

Статья: АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ ТЕРМИНОВ ИЗ КОРПУСА НАУЧНЫХ СТАТЕЙ В SCP (2024)

Читать онлайн

Настоящая статья посвящена изложению теоретических и прикладных принципов работы по автоматическому извлечению терминов из научных текстов. Работа выполняется в рамках государственного задания по теме «Лингвосемиотическая гетерогенность научной картины мира: теоретическое и лингводидактическое описание». Цель исследования заключается в извлечении терминов из подготовленного корпуса научных текстов. Основной задачей на данном этапе исследования было выявить конкорданс определенной терминологии, то есть обозначить список всех употреблений заданного языкового выражения при помощи приложений для автоматической обработки текстов (АОТ). Практическим материалом являются научные статьи по направлению «Науки о Земле». Извлечение терминов при помощи автоматических систем является перспективным направлением современной прикладной лингвистики, так как существенно упрощает и ускоряет процесс создания терминосистем для узкоспециализированных предметных областей и для междисциплинарных направлений, которые находятся на стыке нескольких наук и требует определенного терминологического аппарата. Оценка рабочего процесса извлечения, проведенная с использованием большого набора данных, показала хорошую производительность для большинства типов данных. В этой статье мы описываем общую архитектуру рабочего процесса и предоставляем подробную информацию о реализации отдельных этапов. В результате проделанной работы отмечаем, что полностью перейти на автоматическую обработку текстов на данный момент весьма проблематично, так как полученные результаты не всегда являются точными и могут содержать ошибки. Перспектива исследования связана с адаптацией существующих моделей под определенные научное направления, создание цифровой языковой модели определенных терминосистем и её обучение.

Ключевые фразы: терминология, ИЗВЛЕЧЕНИЕ ТЕРМИНОВ, автоматическая обработка текстов, термины-кандидаты, языковая модель, НАУЧНАЯ КОММУНИКАЦИЯ
Автор (ы): Падерина Татьяна Сергеевна
Журнал: ВЕРХНЕВОЛЖСКИЙ ФИЛОЛОГИЧЕСКИЙ ВЕСТНИК

Идентификаторы и классификаторы

УДК
811.112. Другие западногерманские языки
Префикс DOI
10.20323/2499-9679-2024-3-38-139
eLIBRARY ID
74329735
Для цитирования:
ПАДЕРИНА Т. С. АВТОМАТИЧЕСКОЕ ИЗВЛЕЧЕНИЕ КЛЮЧЕВЫХ ТЕРМИНОВ ИЗ КОРПУСА НАУЧНЫХ СТАТЕЙ В SCP // ВЕРХНЕВОЛЖСКИЙ ФИЛОЛОГИЧЕСКИЙ ВЕСТНИК. 2024. № 3
Текстовый фрагмент статьи