В современной корпусной лингвистике экспоненциальный рост объемов текстовых данных сделал невозможной их ручную разметку, что стало ключевым вызовом для дальнейшего развития корпусной лингвистики. Настоящая статья представляет краткий обзор ключевых методов машинного обучения, применяемых для внутритекстовой разметки в крупных лингвистических корпусах, с фокусом на русскоязычных проектах. В работе рассматриваются современные лингвистически аннотированные корпуса русского языка (Национальный корпус русского языка, Генеральный интернет-корпус русского языка и др.) и анализируются подходы к их автоматической разметке: от ранних словарных и статистических методов, таких как MyStem, PyMorphy2, TreeTagger, до современных нейросетевых архитектур, применяемых для лемматизации, морфосинтаксического, словообразовательного и семантического анализа. Показано, что применение машинного обучения, особенно предобученных языковых моделей, позволило достичь высокой точности, сопоставимой с экспертным уровнем, для наиболее актуальных видов лингвистической разметки. Это открывает новые возможности для создания корпусов беспрецедентного масштаба и проведения лингвистических исследований на по-настоящему крупных массивах данных. В то же время отмечено, что при подобных объемах корпусов даже незначительное отклонение точности разметки от идеальной приводит в абсолютном выражении к миллионам ошибок, что делает необходимым критическое осмысление получаемых при анализе автоматически размеченных корпусов результатов.
Идентификаторы и классификаторы
- SCI
- Языкознание
На сегодняшний день корпусные методы лингвистики утвердились как неотъемлемый и фундаментальный инструмент в арсенале современного исследователя языка. Переход от анализа, основанного на интуиции, субъективных оценках и собственном языковом опыте, к работе с обширными собраниями текстов, написанных множеством реальных носителей языка, позволил лингвистике достичь беспрецедентного уровня объективности и репрезентативности. Корпуса предоставили эмпирическую базу, на которой можно строить верифицируемые суждения о структуре, употреблении и эволюции языка, и стали основой для методологического переворота в дисциплине.
Если у вас возникли вопросы или появились предложения по содержанию статьи, пожалуйста, направляйте их в рамках данной темы.
Список литературы
1. Анастасьев Д.Г. Анализ предобученных моделей для морфо-cинтаксического парсинга русского языка // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. М.: РГГУ, 2020. Вып. 19. С. 1-12. (На англ. яз.).
2. Баюк И., Баюк А., Петрова М. Парсер CoBaLD: интегральная морфосинтаксическая и семантическая разметка // Компьютерная лингвистика и интеллектуальные технологии технологии: по материалам ежегод. междунар. конф. “Диалог”. 2025. Вып. 23. С. 28-37. 10.28995/2075-7182-2025-23-28-37. (На англ. яз.). DOI: 10.28995/2075-7182-2025-23-28-37.(
3. Богуславский И.М., Диконов В.Г., Иншакова Е.С., Иомдин Л.Л., Лазурский А.В., Рыгаев И.П., Тимошенко С.П., Фролова Т.И. Разработка семантического корпуса русского языка: SemOntoCor // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. 2023. Вып. 22. С. 12-25. (На англ. яз.).
4. Зобнин А.И., Носырев Г.В. Морфологический анализатор MyStem 3.0 // Труды Института русского языка им. В.В. Виноградова. 2015. № 3 (6). С. 300-307.
5. Иншакова Е.С., Иомдин Л.Л., Митюшин Л.Г., Сизов В.Г., Фролова Т.И., Цинман Л.Л. СинТагРус сегодня // Труды Института русского языка им. В.В. Виноградова. 2019. № 3 (21). С. 14-40.
6. Ляшевская О.Н., Афанасьев И.А., Ребриков С.А., Шишкина Я.А., Сулейманова Е.А., Трофимов И.В., Власова Н.А. Разрешение неоднозначности в контексте для Национального корпуса русского языка: 20 лет спустя // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. 2023. Вып. 22. С. 307-318. (На англ. яз.).
7. Ляшевская O.Н., Шаврина Т.О., Трофимов И.В., Власова Н.А. GramEval 2020: Дорожка по автоматическому морфологическому и синтаксическому анализу русских текстов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. М.: РГГУ, 2020. Вып. 19. С. 553-569. (На англ. яз.).
8. Мичурина М., Ивойлова А., Копылов Н., Селегей Д. Морфоразметка корпуса текстов из социальных сетей с точки зрения надежности лингвистических исследований // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. М.: РГГУ, 2021. Вып. 20. С. 492-504. (На англ. яз.). EDN: QYNCKU
9. Морозов Д.А., Гарипов Т.А., Ляшевская О.Н., Савчук С.О., Иомдин Б.Л., Глазкова А.В. Автоматическая сегментация морфем для русского языка: Может ли алгоритм заменить экспертов? // Journal of Language and Education. 2024. Т. 10. № 4. С. 71-84. 10.17323/jle.2024.22237. (На англ. яз.). DOI: 10.17323/jle.2024.22237.( EDN: KOMQWG
10. Петрова М.А., Ивойлова А.М., Баюк И.C., Дьячкова Д.С., Мичурина М.А. Проект CoBaLD: разработка и применение стандарта полной морфо-синтаксической и семантической разметки текстов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. 2023. Вып. 22. С. 421-432. (На англ. яз.).
11. Пивоварова Л., Кутузов А. RuShiftEval: соревнование по детектированию семантических сдвигов в русском языке // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. М.: РГГУ, 2021. Вып. 20. С. 533-545. (На англ. яз.). EDN: ATMQQZ
12. Рачинский М., Арефьев Н. Межъязыковой перенос без дообучения толковой языковой модели для обнаружения семантических сдвигов // Компьютерная лингвистика и интеллектуальные технологии: по материалам ежегод. междунар. конф. “Диалог”. М.: РГГУ, 2021. Вып. 20. С. 578-586. (На англ. яз.). EDN: QAPQHQ
13. Сидорова Е.А., Ахмадеева И.Р., Загорулько Ю.А., Серый А.С., Шестаков В.К. Платформа для исследования аргументации в научно-популярном дискурсе // Онтология проектирования. 2020. Т. 10. № 4. С. 489-502. DOI: 10.18287/2223-9537-2020-10-4-489-502 EDN: TXDUIB
14. Afanasev I., Glazkova A., Lyashevskaya O., Morozov D., Smal I., Vlasova N. Rubic2: Ensemble Model for Russian Lemmatization // Proceedings of the 10th Workshop on Slavic Natural Language Processing (Slavic NLP 2025). Association for Computational Linguistics, 2025. P. 157-170. DOI: 10.18653/v1/2025.bsnlp-1.18
15. Aleksandrova A., Nivre J. Models and Strategies for Russian Word Sense Disambiguation: A Comparative Analysis // Text, Speech, and Dialogue (TSD 2024): 27th International Conference / eds. E. Nöth, A. Horák, P. Sojka. Cham: Springer, 2024. P. 267-278. (Lecture Notes in Computer Science; Vol. 15048). DOI: 10.1007/978-3-031-70563-2_21
16. Devlin J., Chang M.-W., Lee K., Toutanova K. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding // Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies. Association for Computational Linguistics, 2019. Vol. 1: Long and Short Papers. P. 4171-4186. DOI: 10.18653/v1/N19-1423
17. Kondratenko Y., Mitrofanova O. Word Sense Induction in Russian: Evaluation of Corpora Preprocessing Techniques and Model Selection // Digital Geography: Proceedings of the International Conference on Internet and Modern Society (IMS 2023) / eds. M. Bakaev, R. Bolgov, A.V. Chugunov, R. Pereira, E. R, W. Zhang. Cham: Springer, 2024. P. 91-106. DOI: 10.1007/978-3-031-67762-5_8
18. Korobov M. Morphological Analyzer and Generator for Russian and Ukrainian Languages // Analysis of Images, Social Networks and Texts (AIST 2015): 4th International Conference / eds. M. Khachay, N. Konstantinova, A. Panchenko, D. Ignatov, V. Labunets. Cham: Springer, 2015. P. 320-332. (Communications in Computer and Information Science; Vol 542). DOI: 10.1007/978-3-319-26123-2_31
19. Morozov D., Astapenka L., Glazkova A., Garipov T., Lyashevskaya O. BERT-like Models for Slavic Morpheme Segmentation // Proceedings of the 63rd Annual Meeting of the Association for Computational Linguistics. Association for Computational Linguistics, 2025. Vol. 1: Long Papers. P. 6795-6815. DOI: 10.18653/v1/2025.acl-long.337
20. Mosolova A., Candito M., Ramisch C. In the LLM era, Word Sense Induction remains unsolved // Findings of the Association for Computational Linguistics (ACL 2025). Association for Computational Linguistics, 2025. P. 17161-17178. DOI: 10.18653/v1/2025.findings-acl.882
21. Nivre J., Zeman D., Ginter F., Tyers F. Universal Dependencies // Proceedings of the 15th Conference of the European Chapter of the Association for Computational Linguistics: Tutorial Abstracts. Association for Computational Linguistics, 2017. URL: https://aclanthology.org/E17-5001/.
22. Qi P., Zhang Y., Zhang Y., Bolton J., Manning C.D. Stanza: A Python Natural Language Processing Toolkit for Many Human Languages // Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics: System Demonstrations. Association for Computational Linguistics, 2020. P. 101-108. DOI: 10.18653/v1/2020.acl-demos.14
23. Schmid H. Probabilistic Part-of-Speech Tagging Using Decision Trees // Proceedings of International Conference on New Methods in Language Processing. 1994. Vol. 12. P. 1-9.
24. Segalovich I. A Fast Morphological Algorithm with Unknown Word Guessing Induced by a Dictionary for a Web Search Engine // Proceedings of the International Conference on Machine Learning; Models, Technologies and Applications (MLMTA’03). Las Vegas, Nevada, USA, 2003. P. 273-280.
25. Straka M., Hajič J., Straková J. UDPipe: Trainable Pipeline for Processing CoNLL-U Files Performing Tokenization, Morphological Analysis, POS Tagging and Parsing // Proceedings of the Tenth International Conference on Language Resources and Evaluation (LREC’16). European Language Resources Association (ELRA), 2016. P. 4290-4297.
26. Yae J.H., Skelly N.C., Ranly N.C., LaCasse P.M. Leveraging large language models for word sense disambiguation // Neural Computing and Applications. 2025. Vol. 37. Iss. 6. P. 4093-4110. DOI: 10.1007/s00521-024-10747-5 EDN: PUFFWX
Выпуск
Другие статьи выпуска
В рецензии рассматривается подготовленная исследователями из Омского государственного университета им. Ф. М. Достоевского коллективная монография, посвященная различным аспектам функционирования диалогических и диалогизированных медиаформатов и медиажанров. Подчеркивается значимость и актуальность издания для научного и современного профессионального медийного сообществ. Отмечается вклад авторов монографии в проблематику категории диалогичности в массмедиа и вписанность издания в широкий социально-культурный контекст.
В статье на примере голосового ассистента «Алиса» исследуются этические аспекты коммуникативного взаимодействия человека с технологиями искусственного интеллекта (ИИ). Систематизируя данные проведенного эксперимента, авторы рассматривают, как «Алиса» реализует стратегии нейтрализации конфликтогенного дискурса, и анализируют способность голосового ассистента поддерживать диалог и создавать нарративы в соавторстве с пользователем. Наблюдения над коммуникативным поведением «Алисы» убеждают в том, что голосовой ассистент максимально соблюдает все стандартные коммуникативные нормы и правила и при этом стремится не утратить речевые черты антропоморфного коммуниканта. В работе описываются коммуникативные сценарии, которые использует «Алиса» для снятия речевых конфликтов: уход от ответственности, увещевание, перемена темы, смирение, дистанцирование, использование намеков, угроз и др. Анализ ограничений, накладываемых этическими настройками ИИ на процесс текстопорождения, показывает, как при генерации текстов «Алиса» последовательно отстаивает заданные ей этические нормы, что может превращать ее в «креативного диктатора». Делается вывод о том, что ИИ реализует набор протоколов, которые позволяют ему избегать ошибки, нарушающие этические нормы. Соблюдение этических норм оказывается для ИИ не менее важным, чем создание иллюзии «антропоморфного» общения, что говорит о важности учета этических принципов в технологически опосредованной коммуникации.
Представленное исследование имеет целью выявить новые микрополя, входящие в макрополе «Искусственный интеллект» (ИИ) в медиатекстах, акцентирующих представления о разного рода «рисках». Автор обращает внимание на феномен роста употреблений формы множественного числа риски в современном медиадискурсе, связывая это с неоднозначностью реалий эпохи цифровизации, балансирующих на грани «добра» и «зла», и с актуализацией и появлением новых значений слов, отражающих эту ситуацию в тематических полях. Аналогичный феномен «умножения» и расширения поля наблюдается и с ИИ, который стал для носителей языка не единичным явлением или инструментом, а целым рядом таких явлений и инструментов. Отождествляясь с «риском» и «рисками», ИИ предстает как опасность, трудность, вызов. Исследование проводилось на базе Национального корпуса русского языка. Проанализировано более 1 000 материалов Основного корпуса, более 20 000 примеров Газетного корпуса, более 400 примеров подкорпуса «Региональные СМИ». Использовались методы контент-анализа, корпусные инструменты, дистрибутивный, контекстно-семантический и компонентный анализ. Полученные данные коррелируют с данными предыдущего исследования, в котором удалось сравнить языковые воплощения представлений о машинном и искусственном разуме: машинный разум - функция, инструмент; искусственный разум - глобальное явление.
В контексте микрополя «Риски» эти представления определяют два вида «рисков», связываемых с ИИ: локальные технические нарушения и сбои, с одной стороны, глобальные угрозы и проблемы, связанные с деятельностью человека, с другой. Установлено, что «риски» проявляются в каждой из ипостасей ИИ как «вызовы», формируя новое микрополе: «угрозы нарушения интересов личности», «решения компьютерного разума», «ресурсы», «технологии», «атаки», «технические сбои» (умышленная подмена данных, уязвимость кода, системы ИИ и т. д.).
В статье исследуется феномен виртуальных инфлюенсеров как нового типа управляемых медиаактивов, возникновение которого обусловлено развитием генеративного ИИ и кризисом традиционного инфлюенс-маркетинга. На основе теоретических подходов медиаэкономики, теории платформ и коммуникативистики анализируется процесс создания и капитализации полностью синтетической медиаличности. Центральное место в работе занимает детальный разбор кейса первого российского виртуального инфлюенсера «Мира», созданного для ритейл-сети «Магнит». Методом кейс-стади анализируется его B2B-модель, основанная на прямой бренд-интеграции, и стратегия вывода на рынок. На основе эмпирических данных рассчитываются и интерпретируются ключевые показатели эффективности (KPI) на начальном этапе, в частности зафиксирован аномально высокий для бренд-контента показатель вовлеченности (ERR) - 10,4 %. Раскрывается экономическая логика актива, базирующаяся на высоких первоначальных и низких предельных издержках, что обеспечивает снижение стоимости контакта по мере роста аудитории. Научная новизна исследования заключается в концептуализации жизненного цикла виртуального инфлюенсера как инвестиционного медиаактива и анализе его экономической эффективности на примере первого крупного российского проекта, что подтверждает глобальный сдвиг от экономики «арендованных» личностей к экономике созданных и полностью контролируемых синтетических активов.
Статья посвящена исследованию способности больших языковых моделей (LLM) интерпретировать референцию пословиц в русском языке на материале фразеологических выражений «первый блин комом» и «своя рука владыка». В рамках исследования предлагается классификация типов референции (конкретная, абстрактная, смешанная, неопределенная) и описывается методика классификации, реализованная в эксперименте с применением моделей GPT-5 и DeepSeek-3.1. Исследование выявило, что общая точность автоматической классификации типов референции пословиц не превышает 33 %, при этом модели демонстрируют уклон в пользу абстрактной референции и затрудняются в идентификации неопределенного типа. Более высокие показатели зафиксированы при бинарной классификации (конкретная / абстрактная; до 60 % у GPT-5), однако объяснение выбора типа часто связано с концептуальными ошибками, прежде всего с систематическим смешением оппозиции «конкретная / абстрактная референция» и «прямое / переносное значение». Делается вывод о том, что LLM имитируют процесс понимания, воспроизводя жанровые шаблоны и избегая риска некорректной интерпретации. Значимость результатов определяется возможностью дальнейшего совершенствования методик оценки интерпретационных способностей LLM в задачах анализа смысловой структуры устойчивых выражений.
Рассматривается в микродиахронии специфика функционирования терминологического сочетания искусственный интеллект в русскоязычных текстах. Цель исследования - выявить особенности употребления термина и его вариантов в современной речи. Материал исследования: Национальный корпус русского языка, электронная медиабаза «Интегрум», научный дискурс. Методика исследования включает анализ семантики и комбинаторики термина; стилистический анализ; дискурсивный анализ. Установлено, что термин является многозначным: в его семантической структуре выделяются процессуальное, предметное, гносеологическое и экзистенциальное значения, по-разному проявляющие себя в разного типа дискурсах. Начиная с 1970-х гг. термин проходит путь от футурологемы, обозначающей фикциональное понятие, до техницизма-реалии. Изменение сочетаемости термина заметно по постепенному сокращению глагольных конструкций со значением поссесивности « Х обладает / наделен искусственным интеллектом », связанных с антропоморфным характером внутренней формы термина, и увеличению числа конструкций « Х оснастили <снабдили, оборудовали> искусственным интеллектом», типичных для использования техницизма при характеристике технического устройства. Динамика изменений в использовании термина искусственный интеллект, обусловленная стремительным развитием соответствующей технологии и широким внедрением ее достижений в повседневную жизнь, проявляется в увеличении частотности термина в медиа; детерминологизации; актуализации компактных субститутов термина, прежде всего ИИ; активности некодифицированных вариантов разной коннотации в медиатекстах ( ИИшка, ИскИн и др.
В статье рассматриваются приемы вежливости в деловой переписке, создаваемой специализированными ИИ-сервисами на основе нейросетевых моделей. В качестве материала использованы письма, сгенерированные сервисом Mitap AI. Письма проанализированы с точки зрения использования этикетных формул, смягчающих конструкций и стратегий позитивной и негативной вежливости. Рассмотрены как универсальные приемы повышения вежливости, так и специфические для отдельных жанров деловой переписки (просьба и отказ). Результаты исследования показывают, что нейросетью избыточно используются традиционные формулы вежливости в начале и конце писем, применяются стратегии как позитивной, так и негативной вежливости, для смягчения тональности используются разнообразные приемы. При этом выявлены случаи калькирования из англоязычного корпуса и ошибки, связанные со спецификой материала, на котором обучалась модель. Делается вывод о том, что распространение практики генерирования писем при помощи ИИ может привести к формированию новых коммуникационных паттернов и оказать влияние на стандарты цифрового этикета.
Исследование посвящено проблеме вхождения искусственного интеллекта (ИИ) в повседневную коммуникацию. Авторов интересует вопрос о том, насколько удобно использовать в обычной жизни готовые коммуникативные решения, разработанные на основе ИИ, в процессе взаимодействия между людьми и машинами. В ходе исследования были подтверждены эффективность и приемлемость этих решений для повседневного использования. Также были выявлены приоритеты участников коммуникации при повседневном взаимодействии с ИИ. Одним из методов исследования послужил эксперимент, в ходе которого респондентам было предложено ответить на вопросы, связанные с повседневным общением между людьми. Вопросы были составлены в упрощенной форме, имитирующей коммуникацию с ребенком. Было выявлено, что в условиях межличностного общения люди с высокой вероятностью будут применять в повседневной жизни готовые коммуникативные решения, разработанные ИИ. Эффективность ИИ в создании таких решений подтверждается анализом его ответов на типичные детские вопросы. В результате установлено, что ответы ИИ привлекали респондентов своей простотой, ясностью и тем, что учитывали возраст собеседника. Полнота и достоверность информации были важны, но не являлись основными критериями, а качество ответа, побуждающее респондентов глубже задуматься над вопросом, воспринималось скорее как его дополнительное преимущество.
В статье рассматривается возможность использования нейросетей в качестве полноценных научных и справочных источников. Делается вывод о том, что существенной преградой для использования нейросетей в отмеченном выше аспекте является их ориентация на синтез текстов - заполнение готовых форм с опорой на ключевые слова без осуществления глубокого анализа с выявлением иерархии исследуемых явлений и установления их более тонких особенностей. В сгенерированных текстах данная черта находит свое проявление в трех типах галлюцинаций. Галлюцинации первого типа (реминисцентного) основаны на ассоциациях с конкретными текстами и фактами. Галлюцинации второго типа (свободно-ассоциативные) возникают вследствие ассоциаций со словами, содержащимися в запросе. Третья группа (основанный на типовых рядах) характеризуется заполнением номинациями (зачастую неверно выбранными) позиций в готовых шаблонах, что хорошо заметно на примерах путеводителей, созданных нейросетями и ставших основным материалом для данной статьи. Галлюцинации первой и второй групп возникают при обработке запросов, связанных с фактами, обладающими широкой известностью, тогда как галлюцинации третьей группы чаще проявляют себя при изложении малоизвестных фактов. В работе подчеркивается важность критического подхода к фактам, изложенным в сгенерированных текстах.
Статья представляет собой лингвистическое исследование, направленное на оценку возможностей и ограничений современных ИИ в области реализации человеческих коммуникативных практик, прежде всего стратегий смягчения. Цель - исследовать и проанализировать митигативные стратегии (стратегии коммуникативного смягчения), используемые современными большими языковыми моделями (LLM), как один из ключевых аспектов процесса гуманизации искусственного интеллекта. Автор, используя эмпирическое тестирование и дискурс-анализ, стремится определить эффективность имитации ИИ человеческих коммуникативных тактик для поддержания комфортного и бесконфликтного общения. Научная проблема заключается в противоречии между стремлением наделить ИИ человеческими чертами (гуманизировать его), включая способность к мягкому, вежливому и этичному общению, и технологическими ограничениями. Установлено, что ИИ недостаточно эффективно распознаёт и генерирует сложные коммуникативные средства (иронию, сарказм, многозначные намеки); оперирует в основном базовыми митигативными приемами, в то время как человеческая коммуникация использует гораздо более широкий и тонкий спектр средств; сталкивается с парадоксом - в процессе обучения человеческой логике и коммуникации для ИИ может оказаться более эффективной иная, «нечеловеческая» логика, что потенциально создает новые вызовы.
Виртуальный поворот в лингвистике связан с включением в современную медиакоммуникацию искусственного интеллекта (ИИ) как полноценного автора, не имеющего поражения в правах, несмотря на свою «нечеловеческую» природу. ИИ переворачивает представления о базовых категориях классической стилистики, которые были выработаны на основе гуманитарных текстов, созданных людьми и имеющих ярко выраженную гуманистическую природу. В статье важнейшая категория стилистики - идиостиль - рассматривается применительно к генеративным текстам, создаваемым новым, технологическим автором, которым является ИИ. Актуальность и новизна исследования обусловлена тем, что категории гуманитарной стилистики проверяются на генеративных текстах, которые еще только начинают становиться предметом и объектом современной лингвистики. Цель статьи состоит в выявлении идиостиля в генеративных текстах, принадлежащих различным функциональным стилям. Была введена шкала проявления идиостилей, в которой градиентами выступили ноль, имплицитное проявление и эксплицитное проявление. Для достижения цели использовался комплекс традиционных лингвостилистических методов анализа и новый метод генеративного лингвистического эксперимента, с помощью которого анализировались генеративные тексты. Интерпретация полученных с помощью генеративного лингвистического эксперимента данных позволила сделать выводы о том, что ИИ в генеративных текстах, в отличие от гуманитарных текстов, пытается индивидуализировать стиль только в разговорном и художественном стилях. В статье высказывается идея разграничивать индивидуальность и личность для определения идиостиля. Личность обладает харизматическим стилем, который недоступен ИИ, поскольку данный стиль включает не просто индивидуальность автора, а масштаб его личности, проявленный в созданных им текстах, оказывающих переломное влияние на национальный стиль и стиль эпохи. Делается вывод о том, что сегодняшнее развитие ИИ позволяет говорить о его собственном идиостиле, который, по сравнению с идиостилем человека, отличается усредненностью и синтетичностью, что соответствует постулатам постмодернизма о смерти автора.
В статье на материале текстов, написанных школьниками и сгенерированных нейросетевыми моделями (YandexGPT, GigaChat, «ТекстПлюс»), проводится исследование таких текстовых категорий и свойств, как связность (когезия и когерентность), цельность, завершенность, членимость, развернутость и последовательность, социологичность, выявляется их специфика в сопоставлении текстов, созданных естественным и искусственным разумом. Анализ показал, что наиболее успешно нейросети обращаются с такими категориями текста, которые могут быть алгоритмизованы: членимость, когезия, социологичность. Так, модели успешно: 1) проводят деление текста на абзацы, сохраняют единство микротемы и используют коннекторы в соответствии с правилами тематического развертывания (членимость); 2) реализуют субституцию (когезия); 3) создают тексты заданного типа и фиксированной структуры (социологичность). Однако современные модели всё еще испытывают трудности при работе с категориями, оформляющими текст на глобальном уровне в соотношении с мышлением: когерентность, завершенность, развернутость и последовательность. Нарушения реализации этих категорий обычно представлены следующими видами: ошибками в области создания и движения мысли при внешнем соблюдении формальной связности (когерентность), ошибки в создании выводов в ходе рассуждения (завершенность), регулярные нарушения логичности речи как на локальном, так и глобальном уровнях (развернутость и последовательность). Школьники, демонстрируя средний уровень владения всеми категориями, создают всё же более осмысленные тексты в сравнении с нейросетевыми.
Развитие интеллектуальных систем на основе искусственного интеллекта трансформирует природу коммуникации, порождая новые формы речевого взаимодействия. Это создает необходимость пересмотра классических моделей коммуникации в условиях генерации симулякров, активно воздействующих на пользователя. Цель работы - анализ артифициатива как жанра сетевого дискурса, порождаемого искусственным интеллектом, и выявление механизмов его речевого воздействия. В задачи входит определение специфики симулятивной коммуникации, классификация ее моделей и описание стратегий создания иллюзии естественного диалога. Материалом исследования выступили инициирующие и реагирующие реплики как виртуальных собеседников, так и реальных пользователей российских и китайских социальных сетей (TenChat, Weibo). Методология сочетает лингвосемиотический и дискурсивный анализ с элементами контент-анализа для выявления частотных моделей взаимодействия. В результате выделены три базовые модели коммуникации «человек - виртуальны собеседник», описаны их структурные компоненты и прагматические функции. Установлено, что артифициатив, имитируя естественное общение, использует стратегии вежливости и эмоционального вовлечения для формирования зависимости и управляемого поведения пользователя. Таким образом, артифициатив становится инструментом косвенного воздействия, который не только воспроизводит межличностную коммуникацию, но и трансформирует ее природу, размывая границы между естественным и искусственным в общении.
В статье представлены основные проблемы, связанные с ролью дисплейных текстов и нейросетевых текстовых генераций в речевом общении и рассматривающиеся в актуальных научных исследованиях, включая публикации авторов настоящего тематического выпуска. Используя аналитические, сравнительно-оценочные, описательные методы, информационный синтез и метаанализ, привлекая и корпусные данные, авторы особое внимание уделяют теории дисплейного текста В. Г. Костомарова и ее терминологии, различию между экранным и дисплейным текстом, с одной стороны, и искусственным интеллектом (ИИ), конкурирующим в коммуникативном поле с человеком, с другой. Основу статьи составляет анализ спектра проблем, которые ставит перед исследователями участие нейросетей в коммуникации и к которым относятся: эволюция представлений об ИИ в русскоязычной картине мира; изменения в коммуникации, в том числе повседневной; использование ИИ стратегий вежливости и эмоционального вовлечения для формирования зависимости пользователя; сопоставление реализаций текстовых категорий в текстах, созданных ИИ и человеком; идиостилевые характеристики ИИ-генераций; достоверность данных, передаваемых нейросетями; вопросы обучения нейросетей, маркирующих данные корпусов. Статья представляет интерес для исследователей в области лингвистики, коммуникации и информационных технологий, а также всех, кто интересуется влиянием ИИ на современное общество.
Издательство
- Издательство
- ОМГУ ИМ. Ф. М. ДОСТОЕВСКОГО
- Регион
- Россия, Омск
- Почтовый адрес
- 644077, Омская обл, г Омск, Советский округ, пр-кт Мира, д 55А
- Юр. адрес
- 644077, Омская обл, г Омск, Советский округ, пр-кт Мира, д 55А
- ФИО
- Замятин Сергей Владимирович (РЕКТОР)
- Контактный телефон
- +7 (___) _______