Статья: БАЗОВЫЕ МЕТОДИКИ АНАЛИЗА ЯЗЫКОВЫХ КАРТИН ПОЛИТИКИ С ПОМОЩЬЮ ЯЗЫКА ПРОГРАММИРОВАНИЯ PYTHON И БИБЛИОТЕКИ NLTK (НА МАТЕРИАЛАХ КОРПУСОВ БРИТАНСКОГО ПАРЛАМЕНТСКОГО ДИСКУРСА)

Скачать

В рамках данной статьи предлагается один из возможных вариантов оптимального набора базовых методик, необходимых для изучения языковых картин мира на материалах крупных текстовых корпусов с использованием сочетания языка высокоуровневого языка программирования Python и библиотеки NLTK (Natural Language Toolkit). Необходимость выделения и конкретизации означенного методологического инструментария проистекает из характера тех вызовов, которые стоят перед современной когнитивной лингвистикой и лексикологией в сфере анализа больших неструктурированных данных. Работоспособность и практическая ценность предлагаемых методик демонстрируется на примере составленных автором сплошных параллельных диахронических корпусов дискурса обеих палат британского парламента за период с 2006 по 2023 гг., совокупный объём которых превышает треть миллиарда токенов. Набор предлагаемых методик включает в себя инструменты анализа базовых параметров вокабуляра, инструменты извлечения целевого вокабуляра, а также обработки и визуализации его частотных параметров и сочетаемости. Целесообразность овладения предлагаемыми и систематизируемыми в рамках данной статьи методиками автоматического анализа текста обосновывается с позиции их необходимости как компетентностного минимума в области компьютерных технологий, который способен значительно повысить уровень лингвистических исследований и их научную конкурентоспособность. Автор приходит к выводу о том, что в силу объективно сложившихся условий современному отечественному исследователю языковых картин мира с высокой долей вероятности придётся включить в свой прикладной инструментарий сочетание языка программирования Python и библиотеки NLTK. Предлагаемые в данной статье методики делают возможным гибкое формирование исследовательских протоколов с учётом широкого разнообразия возможных приоритетов. В качестве главного преимущества предлагаемого автором набора методов машинной обработки и количественного анализа текста видится возможность использования практических навыков, полученных в результате её освоения как комфортной компетентностной основы для последующей интеграции овладевшего ими лингвиста в сообщество исследователей наиболее высокотехнологичных и наиболее актуальных на сегодняшний день направлений науки о языке.

Информация о документе

Формат документа: PDF
Кол-во страниц: 1 страница
Загрузил(а): Гагарин Сергей
Лицензия: —
Доступ: Всем

Информация о статье

ISSN: 2410-2423
EISSN: 2782-3717
Журнал: ФИЛОЛОГИЧЕСКИЕ НАУКИ В МГИМО
Год публикации: 2024
Автор(ы): Гагарин С. Н.
Ключевые фразы: корпусная лингвистика, обработка естественного языка, большие данные, КОГНИТИВНАЯ ЛИНГВИСТИКА, ПАРЛАМЕНТСКИЙ ДИСКУРС
УДК: 81. Лингвистика. Языкознание. Языки

Статистика просмотров

Статистика просмотров статьи за 2025 - 2026 год.

Ранее вы смотрели (10)

01. Статья: ИССЛЕДОВАНИЕ СОЦИАЛЬНОЙ ЗАЩИТЫ МНОГОДЕТНЫХ СЕМЕЙ (НА ПРИМЕРЕ ГКУ АО УСЗН ПО ИВАНОВСКОМУ МУНИЦИПАЛЬНОМУ ОКРУГУ)

02. Статья: ЭНЕРГЕТИЧЕСКАЯ ДИПЛОМАТИЯ И ФОРМИРОВАНИЕ «ЭКОНОМИКИ СОПРОТИВЛЕНИЯ» В ИРАНЕ

03. Статья: КОММУНИКАТИВНЫЕ СТРАТЕГИИ В КУЛЬТУРНОЙ ПАРАДИГМЕ

04. Статья: СОВРЕМЕННЫЕ ПОДХОДЫ К ДИАГНОСТИКЕ И ПРОГНОЗИРОВАНИЮ ТЕХНИЧЕСКОГО СОСТОЯНИЯ ЭЛЕКТРОМЕХАНИЧЕСКОГО ПРИВОДА ЛЕТАТЕЛЬНОГО АППАРАТА

05. Статья: УПРАВЛЕНИЕ РАЗВИТИЕМ КООПЕРАЦИИ В РОССИЙСКОЙ ФЕДЕРАЦИИ: ПРОБЛЕМЫ И ПЕРСПЕКТИВЫ

06. Статья: РАСПРЕДЕЛЕНИЕ МАРГАНЦА В БАССЕЙНЕ РЕКИ ТЕРЕК

07. Книга: С чего начинается Родина: молодежь в лабиринтах патриотизма. Сборник статей

08. Книга: Склеповые сооружения горной Осетии. Историко-этнологический очерк

09. Статья: НЕМЕДИКАМЕНТОЗНАЯ КОРРЕКЦИЯ И ПРОФИЛАКТИКА МЕТЕОПАТИЧЕСКИХ СОСТОЯНИЙ У БОЛЬНЫХ АРТЕРИАЛЬНОЙ ГИПЕРТЕНЗИЕЙ

10. Статья: ИСТОРИЯ АЛАН И ФЕОДАЛИЗМА В АЛАНИИ-ОСЕТИИ В НАУЧНОМ НАСЛЕДИИ Б. В. СКИТСКОГО

Будьте первым, кто начнет обсуждение

Если у вас возникли вопросы или появились предложения по содержанию статьи, пожалуйста, направляйте их в рамках данной темы.

Создать тему для обсуждения

Все права на тексты и товарные знаки принадлежат их законным владельцам. Подробнее...

Сайт https://scinetwork.ru (далее – Сайт) представляет собой платформу, на которой пользователи самостоятельно добавляют и публикуют метаинформацию о материалах разных видов (названия, обложки, аннотации, данные об авторах и т.п.). Администрация Сайта не занимается самостоятельным сбором или первоначальной публикацией этих сведений.

Модерация контента

На Сайте действует постмодерация. Это означает, что материалы, добавляемые пользователями, становятся общедоступными сразу после публикации и проверяются Администрацией Сайта постфактум в разумные сроки.

Использование информации

Администрация Сайта не использует метаданные и обложки документов в коммерческих или рекламных целях для продвижения товаров или услуг и не заявляет о каких-либо правах на представленные объекты интеллектуальной собственности. Все права на документы и сопутствующие материалы принадлежат их законным правообладателям.

Отказ от гарантий

Администрация Сайта не гарантирует точность, полноту и достоверность метаинформации, размещенной пользователями, поскольку не осуществляет ее предварительную проверку.

Ответственность

Сайт носит исключительно информационно-справочный характер. Администрация Сайта не несет ответственности за содержание и достоверность информации, добавленной пользователями, а также за любые убытки, возникшие в связи с использованием или невозможностью использования Сайта и размещенной на нем информации.