Коллективная монография Джесс Эгберт (Jess Egbert), Туве Ларссон (Tove Larsson) и Дугласа Байбера (Douglas Biber) посвящена практическим вопросам, связанным с корпусными исследованиями. Работа продолжает серию изданий «Элементы корпусной лингвистики» (“Elements in Corpus Linguistics”), которые знакомят читателей с методологической базой исследований. Несмотря на то, что вопросам корпусного анализа уделялось большое внимание в учебной и научной литературе, они не теряют своей актуальности по нескольким причинам. С одной стороны, появляются разнообразные корпусы текстов и становятся доступными новые инструменты, которые могут быть использованы при проведении исследований. С другой стороны, развивается и усложняется статистический аппарат, результаты применения которого при неправильном подходе могут привести к ошибкам. В связи с этим авторы монографии пытаются ответить на ряд вопросов, связанных с: 1) выбором корпуса для исследования; 2) формулировкой гипотез и определением единиц для наблюдения; 3) оценкой применимости количественных методов и программных инструментов для решения поставленных задач. Книга рассчитана на новичков в области, но при этом может быть полезна и сложившимся исследователям. Авторы отдают себе отчет в том, что в работе рассматриваются некоторые известные базовые понятия, однако обращение к затрагиваемым вопросам и их обсуждение может способствовать бо́льшему пониманию и у широкой аудитории
Корпусы текстов и ставший доступным в них статистический аппарат дали новый импульс дальнейшему изучению сочетаемости лексических единиц. При этом устойчивые словосочетания достаточно подробным образом представлены в толковых и специализированных словарях. Статья посвящена исследованию того, как, с одной стороны, словарные коллокации (единицы, зафиксированные в лексикографических источниках) отражены в корпусе текстов (на материале Национального корпуса русского языка) и как, с другой стороны, частотные словосочетания, полученные на материале корпуса, соответствуют словарным данным. Материалом послужили коллокации, построенные по модели «глагол + существительное», которые были отобраны из словарей русского языка, со следующими существительными: жизнь, сила, дело, слово, работа, время, взгляд, вопрос, возможность, право. Ранжирование словосочетаний в корпусе было произведено при помощи частоты совместной встречаемости, а также статистической метрики logDice. Результаты показывают, что высокочастотные единицы из корпуса довольно полно отражены среди коллокаций, представленных в словарях (около 67%). И наоборот, среди найденных частотных словосочетаний больше половины (55%) составляют словарные коллокации. Мера logDice демонстрирует результаты, схожие с ранжированием по частоте совместной встречаемости