Статья: БАЗОВЫЕ МЕТОДИКИ АНАЛИЗА ЯЗЫКОВЫХ КАРТИН ПОЛИТИКИ С ПОМОЩЬЮ ЯЗЫКА ПРОГРАММИРОВАНИЯ PYTHON И БИБЛИОТЕКИ NLTK (НА МАТЕРИАЛАХ КОРПУСОВ БРИТАНСКОГО ПАРЛАМЕНТСКОГО ДИСКУРСА)
В рамках данной статьи предлагается один из возможных вариантов оптимального набора базовых методик, необходимых для изучения языковых картин мира на материалах крупных текстовых корпусов с использованием сочетания языка высокоуровневого языка программирования Python и библиотеки NLTK (Natural Language Toolkit). Необходимость выделения и конкретизации означенного методологического инструментария проистекает из характера тех вызовов, которые стоят перед современной когнитивной лингвистикой и лексикологией в сфере анализа больших неструктурированных данных. Работоспособность и практическая ценность предлагаемых методик демонстрируется на примере составленных автором сплошных параллельных диахронических корпусов дискурса обеих палат британского парламента за период с 2006 по 2023 гг., совокупный объём которых превышает треть миллиарда токенов. Набор предлагаемых методик включает в себя инструменты анализа базовых параметров вокабуляра, инструменты извлечения целевого вокабуляра, а также обработки и визуализации его частотных параметров и сочетаемости. Целесообразность овладения предлагаемыми и систематизируемыми в рамках данной статьи методиками автоматического анализа текста обосновывается с позиции их необходимости как компетентностного минимума в области компьютерных технологий, который способен значительно повысить уровень лингвистических исследований и их научную конкурентоспособность. Автор приходит к выводу о том, что в силу объективно сложившихся условий современному отечественному исследователю языковых картин мира с высокой долей вероятности придётся включить в свой прикладной инструментарий сочетание языка программирования Python и библиотеки NLTK. Предлагаемые в данной статье методики делают возможным гибкое формирование исследовательских протоколов с учётом широкого разнообразия возможных приоритетов. В качестве главного преимущества предлагаемого автором набора методов машинной обработки и количественного анализа текста видится возможность использования практических навыков, полученных в результате её освоения как комфортной компетентностной основы для последующей интеграции овладевшего ими лингвиста в сообщество исследователей наиболее высокотехнологичных и наиболее актуальных на сегодняшний день направлений науки о языке.
Информация о документе
- Формат документа
 - Кол-во страниц
 - 1 страница
 - Загрузил(а)
 - Лицензия
 - —
 - Доступ
 - Всем
 
Информация о статье
- ISSN
 - 2410-2423
 - EISSN
 - 2782-3717
 - Журнал
 - ФИЛОЛОГИЧЕСКИЕ НАУКИ В МГИМО
 - Год публикации
 - 2024
 
Статистика просмотров
Статистика просмотров статьи за 2025 год.