Коллективная монография Джесс Эгберт (Jess Egbert), Туве Ларссон (Tove Larsson) и Дугласа Байбера (Douglas Biber) посвящена практическим вопросам, связанным с корпусными исследованиями. Работа продолжает серию изданий «Элементы корпусной лингвистики» (“Elements in Corpus Linguistics”), которые знакомят читателей с методологической базой исследований. Несмотря на то, что вопросам корпусного анализа уделялось большое внимание в учебной и научной литературе, они не теряют своей актуальности по нескольким причинам. С одной стороны, появляются разнообразные корпусы текстов и становятся доступными новые инструменты, которые могут быть использованы при проведении исследований. С другой стороны, развивается и усложняется статистический аппарат, результаты применения которого при неправильном подходе могут привести к ошибкам. В связи с этим авторы монографии пытаются ответить на ряд вопросов, связанных с: 1) выбором корпуса для исследования; 2) формулировкой гипотез и определением единиц для наблюдения; 3) оценкой применимости количественных методов и программных инструментов для решения поставленных задач. Книга рассчитана на новичков в области, но при этом может быть полезна и сложившимся исследователям. Авторы отдают себе отчет в том, что в работе рассматриваются некоторые известные базовые понятия, однако обращение к затрагиваемым вопросам и их обсуждение может способствовать бо́льшему пониманию и у широкой аудитории
Слово жест в русском поэтическом языке не относится к высокочастотным, однако примеры его употребления позволяют сделать интересные наблюдения. Случаи использования слова жест в поэтических текстах рассматриваются через призму авторитетных лингвистических исследований по русской жестикуляции, а также работ литературоведческой, лингвопоэтической направленности, в которых жесты понимаются как знаки, образы, часть системы символов, в том числе у отдельных авторов. В многотомном «Словаре языка русской поэзии XX века», который создается по произведениям десяти видных поэтов Серебряного века (И. Анненского, А. Ахматовой, А. Блока, С. Есенина, М. Кузмина, О. Мандельштама, В. Маяковского, Б. Пастернака, В. Хлебникова, М. Цветаевой), содержится около сорока контекстов с этим словом (наибольшее их количество отмечается у Цветаевой). В поэтическом корпусе Национального корпуса русского языка обнаруживается более 450 вхождений. В статье анализируются разные типы поэтического употребления слова жест. В ряде случаев оно используется без конкретизаторов (для обозначения жеста как такового, неопределенного жеста), и нередко в ряду названий других невербальных проявлений; часто слово жест уточняется путем указания на способ, которым производится телодвижение. В поэтическом дискурсе частотны атрибутивные уточнения, характеризующие жест с той или иной стороны. Особый интерес представляют случаи образного осмысления слова жест
В работе на примере тактильного жеста положить (свою) руку на (чью-либо) руку обсуждается понятие невербальной манипуляции. На материале русских художественных произведений XIX–XXI вв. анализируются значения и употребления этого жеста. Выделяются две основные группы его употреблений: 1) исполнитель жеста показывает, что испытывает тёплые чувства к адресату, сообщает ему какую-то важную информацию или даёт понять, что говорит искренне; 2) исполнитель побуждает адресата совершить некоторые действия или измениться внутренне (соблазнение, настойчивая просьба, попытка остановить слова или действия адресата, допрос, успокоение, убеждение). В ситуациях, представленных второй группой употреблений, невербальная манипуляция более вероятна. Однако, на наш взгляд, по одному только жесту невозможно с уверенностью судить о манипулятивном характере коммуникации, поскольку рассматриваемый жест (а) допускает совмещение разных значений и функций в одном контексте; (б) может быть неверно интерпретирован адресатом; (в) может выполнять одну и ту же функцию в разных коммуникативных актах. Тем самым, о манипулятивном характере диалога позволяют судить не столько семантические и функциональные особенности того или иного невербального знака, сколько конкретная ситуация его употребления
В статье на материале записей речевого и жестового поведения участников, поясняющих различия между близкими синонимами, устанавливаются особенности полимодального конструирования ими референтов двух типов — слов и объектов. Для проведения анализа применяется метод образ-схем; разрабатывается модель трехуровневого анализа образ-схем (миметические / телесные схемы, схемы базового уровня и схемы высокого уровня абстракции — зд. СЛОВО и ОБЪЕКТ). С опорой на теории уровней образ-схем Дж. Грэди, квалиа-ролей Дж. Пустейовского и миметических схем Й. Златева описывается состав образ-схем, представляющих четыре схемы базового уровня: ЧАСТЬ–ЦЕЛОЕ, ТИП, ФУНКЦИОНИРОВАНИЕ, ТРАНСФОРМАЦИЯ, соотносимых с дейктическими, репрезентирующими, прагматическими жестами и жестами-адаптерами. Распределение частотности базовых образ-схем, а также их синхронизация с жестами разных типов указывают на сходства и различия в конструировании референта как слова или как объекта. Значимые различия обнаружены в отношении активности схем ЧАСТЬ–ЦЕЛОЕ (превалирует при конструировании референта-объекта) и ТРАНСФОРМАЦИЯ (превалирует при конструировании референта-слова); также наблюдаются различия в использовании дейктических жестов при конструировании референта-объекта. Высказывается гипотеза о том, что в основе такого варьирования лежит выбор миметических образ-схем при конструировании референтов разного типа
В статье приводится обзор исследований последних двух лет, объединенных общей тематикой изучения известного «Фильма о грушах» У. Чейфа в жанре репортажа. В отличие от более традиционного жанра пересказа, данный жанр еще плохо исследован и описан в современной лингвистической литературе. В статье кратко представлены шесть небольших корпусов, собранных автором, в том числе корпус записей, проведенных с использованием метода регистрации движений глаз (айтрекинга). Далее приводятся результаты нескольких конкретных экспериментов: о взаимосвязи между объемом вербальной рабочей памяти испытуемых и их особенностями порождения речи в ходе репортажа; исследование индивидуальных стилей речи комментаторов с привлечением данных регистрации движений глаз испытуемых; изучение известности референта как фактора активации; описание модели интродукции в «Репортажах о грушах»; исследование «Репортажей о грушах» в норме и патологии, в том числе описание языковых особенностей пациентов с заболеваниями шизофренического спектра; сравнение «Репортажей о грушах» с «Рассказами о грушах», записанных в традиционном жанре пересказа, у одних и тех же испытуемых. В качестве испытуемых в экспериментах участвовали студенты МГУ имени М. В. Ломоносова
Анализируется проблема расчленения речевого акта на два иллокутивных компонента: собственно иллокутивный (например, рему сообщения и неизвестное вопроса) и несобственно иллокутивный (например, тему и известное вопроса). Показано, что речевые акты подразделяются на имеющие четкую границу между иллокутивными компонентами и не имеющие очевидной границы. Вводится понятие иллокутивного шва, который может разделять компоненты речевого акта и который служит результатом специальных линейно-просодических преобразований, примененных к условно исходным предложениях. Понятие иллокутивного шва демонстрируется на примере русского вопросительного предложения. Рассмотрены механизмы опущения собственно иллокутивного компонента по иллокутивному шву, если лексико-синтаксическая структура собственно иллокутивного компонента может быть реконструирована из контекста
В статье анализируются данные семантической векторной модели Основного корпуса НКРЯ. Рассматриваются группы ассоциатов существительных, контекстная близость которых превышает порог 0,5. К корпусным данным групп ассоциатов применяются теоретические методы анализа лексико-семантических отношений. Более абстрактно основной вопрос статьи можно сформулировать следующим обра зом: насколько имеющиеся теоретические представления о лексико-семантических отношениях между лексемами в языке — такие как гиперонимия (родо-видовые отношения), меронимия (отношения часть-целое), синонимия — соотносимы с корпусными данными о близости контекстов употребления этих лексем. В статье показывается, что привлечение данных близости семантических векторов дает возможность увидеть более сложно организованную систему лексико-семан ти ческих отношений. Эта система, с одной стороны, позволяет сравнивать пары лексем внут ри одного типа отношений по шкале ближе-дальше и, таким образом, выделить аналог семантических прототипов на основании корпусных данных. С другой стороны, выявляется зависимость реализации лексико-семантических отношений от экстралингвистических параметров, таких как дистрибуция по сфере употребления текстов, связанность употребления лексем с определенными текстовыми жанрами, а также социокультурные факторы, влияющие на доминацию определенных контекстов
Обучающий корпус предназначен для преподавания русского языка и литературы в школе, для подготовки учителей-словесников в педагогических институтах, а также для преподавания русского языка иностранцам. Обучающий корпус построен на иных принципах, отличающих его от основного корпуса письменных текстов. Отличия касаются сбалансированности текстов в составе корпуса, соответствия их школьной программе и современным орфографическим нормам. Объем корпуса превышает 13 млн словоупотреблений. В соответствии со школьным курсом русского языка в корпусе представлены тексты, относящиеся к различным сферам употребления языка: художественная литература, публицистика, деловая, научная, разговорная речь. Большую часть корпуса составляют произведения, входящие в программу по литературе для основной и старшей школы, в том числе рекомендованные для внеклассного чтения. Морфологическая разметка в Обучающем корпусе адаптирована к школьной программе по русскому языку и обеспечивает именно традиционный, упрощенный грамматический разбор. В целях соответствия задачам школьного преподавания в разметку введены дополнительные морфологические признаки — словоизменительные типы имен и глаголов (склонения, спряжения) и лексико-грамматические разряды существительных, прилагательных, местоимений, наречий. В корпусе использована как морфологическая разметка с ручным снятием омонимии, так и морфологическая и синтаксическая разметка с автоматическим снятием неоднозначности на основе нейросетевых алгоритмов. Новая разметка делает доступными все новейшие функциональные возможности: «Поиск коллокаций», «Частотный словарь», «Частотность выдачи», «Портрет слова», включающий «Скетчи» и «Похожие слова» и др., которые призваны повысить привлекательность корпуса для пользователя и превратить его в необходимый инструмент учителя-словесника.
Предлагается описание основных особенностей и опций многосторонне размеченного корпуса русских текстов СинТагРус. Корпус был разработан в ИППИ РАН им. А. А. Харкевича и в настоящее время выступает как один из подкорпусов НКРЯ, где он называется «Синтаксическим корпусом». Излагаются основные подходы к выбору текстов для корпуса и к их метаразметке, лингвистические принципы, лежащие в основе разметки разных типов — морфологической, синтаксической, лексико-семантической, лексико-функциональной, эллиптической, микросинтаксической, кореферентной и темпоральной. Приводятся статистические данные, характеризующие различные аспекты СинТагРуса и его фрагментов. СинТагРус является корпусом со стопроцентно дизамбигуированной на всех уровнях разметкой: в статье описываются очевидные достоинства такой разметки и в то же время отмечаются трудности, связанные с необходимостью всегда принимать определенные решения и выбирать единственные варианты разметки даже в тех случаях, когда языковой материал принципиально допускает неединственное лингвистическое описание. Значительное внимание уделяется описанию некоторых различий, существующих между СинТагРусом и основными подкорпусами НКРЯ — разделению материала по частям речи, различным морфологическим решениям, принятыми в СинТагРусе и НКРЯ (таким, как трактовка отдельных морфологических категорий — вида и залога глагола, некоторых падежей существительных и др.).
В работе обсуждаются некоторые грамматические, семантические и коммуникативные особенности неопределенно-количественных местоимений мало кто, мало какой (чей), много кто, много какой (чей), которые входят в обширный класс производных неопределенных местоимений (неизвестно кто; кто угодно и под.). Конструкции мало / много кто сравниваются с неопределенно-количественными выражениями мало / много Х-ов. Показано, что эти выражения не полностью синонимичны и потому во многих случаях невзаимозаменимы: В этот поздний час в вагоне было мало людей VS.? В этот поздний час в вагоне мало кто был. Внутри своей группы неопределенно-количественные местоимения также несимметричны. Статистика НКРЯ показывает, что выражений с компонентами мало / редко (кто / какой / чей) на порядок больше, чем с компонентом много. У этих выражений есть и грамматические различия (которые связаны с семантическими и коммуникативными различиями), например в выборе форм числа (для много какие ед. число невозможно): Редко какая книга может вызвать такое стопроцентное отторжение (возможный вариант: Редко какие книги… ) VS. Я много в каких точках побывал (*много в какой точке).
В статье исследуется процесс диахронического развития полисемии русского толк, привлёкшего наше внимание своим нетривиальным распределением лексем внутри числовой парадигмы. Несмотря на её формальную двучленность, в современном русском языке толк и толки образуют два семантически несвязанных класса конструкций. Для выявления отношений семантической производности в структуре многозначности толк семантические деривации были рассмотрены в диахронической перспективе на материале корпусных данных, а также данных картотеки Института русского языка им. В. В. Виноградова РАН. Было показано, что исконно имя толк в русском языке не обладало речевой семантикой, а получило её лишь на рубеже XVIII–XIX вв. в результате участия мотивирующего предиката толковать в новом, несвойственном ему классе конструкций. При этом само развитие полисемии толк происходило за счёт метонимических переходов и затем лексикализации, позволившей этому имени закрепиться в узусе, не смотря на постепенное выветривание исконной лексической структуры. Были отмечены и некоторые семантические сдвиги в наиболее частотных конструкциях с лексемами толк и толки, которые повлияли на их синхронную сочетаемость; исследован процесс лексической конкуренции с ближайшими коррелятами — заимствованиями и кальками. Рассмотренный путь семантической эволюции слов с корнем толк позволяют говорить о явлении конструкционного «принуждения» (coercion) как об одном из паттернов диахронического развития русской абстрактной лексики.
Лингвистам известна загадка слова прелесть, совмещавшего в себе два на первый взгляд противоположных значения: ‘соблазн, искушение’ и ‘красота, очарование’. При обсуждении этой необычной полисемии (которая иногда даже квалифицировалась как энантиосемия, что, с нашей точки зрения, не вполне обоснованно) в лингвистических работах главным образом обращалось внимание на сосуществование двух значений в разных сферах — «сакральной» и «светской», однако вопрос об обстоятельствах такого семантического перехода при этом оставался в тени. В статье, описывающей результаты корпусного исследования (с использованием новых возможностей панхронического поиска, доступных в Национальном корпусе русского языка), обращается внимание на некоторые дополнительные аспекты семантической истории этого слова — прежде всего, на влияние французского языка, способствовавшего появлению «светского» значения у прелесть / прелести в качестве семантической кальки с франц. charme(s). Интерес представляет также появление и дальнейшее развитие прямого французского заимствования — слова шарм, активно употребляющегося и в современном русском языке. Статья посвящена памяти Нины Давидовны Арутюновой, любившей это слово — и сложность естественного языка.