Научный архив: статьи

ПРИМЕНЕНИЕ АРХИТЕКТУРЫ ТРАНСФОРМЕРА (VASWANI ET AL) ДЛЯ ПОСЛЕДОВАТЕЛЬНОГО УПРОЩЕНИЯ ГЕОМЕТРИИ ПРИЗНАКОВОГО ПРОСТРАНСТВА И ОДНОВРЕМЕННОГО КОНСТРУИРОВАНИЯ УНИКАЛЬНЫХ ВЕКТОРНЫХ ПРЕДСТАВЛЕНИЙ ОБЪЕКТОВ ПАНЕЛЬНЫХ ДАННЫХ (2025)

Основной проблемой любого подхода к машинному обучению является однофазность всего процесса. Исходное пространство признаков преобразуется таким образом, чтобы все данные соответствовали более-менее стандартным нормальным распределениям, после чего запускается модель, и в результате получаются выходные данные. Однако в настоящей статье рассматривается другая сторона вопроса. А что будет, если нелинейным способом преобразовать исходное пространство признаков и уже к новому пространству применить некоторый алгоритм? Представлено техническое объединение исправления геометрии пространства и последующее решение задачи формирования векторных образов для объектов панельных данных. В конце исследования приведено сравнение результатов как с ранее предложенными моделями, так и самого алгоритма с собой с учетом модификаций функций потерь. Результат показывает преимущество совместного обучения рассмотренных моделей упрощения пространства и моделей, используемых для решения некоей последующей задачи (например, построения векторных образов и кластеризации объектов). Основной упор сделан на аналитику панельных данных, однако идеология вполне поддается обобщению на любые направления, где присутствует множество дескриптивных векторов, характеризующих некоторый объект (для сохранения общности он не конкретизируется).

Издание: ЭКОНОМИКА И УПРАВЛЕНИЕ: ПРОБЛЕМЫ, РЕШЕНИЯ

Выпуск: Том 1 № 3 (2025)

Автор(ы): Гришин Андрей Юрьевич

Сохранить в закладках

ЛИНГВИСТИКА НЕЙРОСЕТЕЙ КАК ПАРАДИГМА СОВРЕМЕННОЙ НАУКИ О ЯЗЫКЕ (2025)

Статья посвящена обоснованию лингвистики нейросетей как нового научного направления, возникающего на пересечении лингвистики, компьютерных наук и когнитивистики. В исследовании описываются и сопоставляются компьютерная и корпусная лингвистики, выделяются их задачи и взаимосвязь с искусственным интеллектом. Особое внимание уделяется терминологическому аппарату нового научного направления, исследуются этапы обработки текста нейросетями и задачи, решаемые в рамках обработки данных на естественном языке, включая выделение сущностей, анализ тональности и построение языковых моделей. Статья подчеркивает значимость лингвистики нейросетей для совершенствования взаимодействия человека и машины, а также перспективы ее применения в создании мультимодальных моделей, изучении редких языков и исследовании механизмов человеческого мышления. В исследовании представлены и охарактеризованы архитектуры современных нейронных сетей. Выводы статьи формируют основу для дальнейшего развития данного междисциплинарного направления.

Издание: МИР НАУКИ, КУЛЬТУРЫ, ОБРАЗОВАНИЯ

Выпуск: № 1 (110) (2025)

Автор(ы): Микаллеф Лариса Олеговна

Сохранить в закладках

Анализ взаимной динамики котировок акций и тональности текстовых упоминаний в СМИ компании «OZON Holdings PLC» с применением корреляционного и сентимент-анализа (2025)

Предметом исследования является количественная оценка взаимосвязи между тональностью упоминаний компании «Ozon Holdings PLC» в русскоязычных средствах массовой информации (СМИ) и динамикой котировок ее акций на Московской бирже. В современной цифровой экономике понимание этого нефинансового фактора имеет критическое значение, особенно для технологических компаний, таких как Ozon, чьи акции характеризуются высокой волатильностью и чувствительностью к информационному фону, а также репутационным рискам. Актуальность работы обусловлена необходимостью для компании Ozon разрабатывать эффективные стратегии управления своим медиа-образом. Это является значимой проблемой в условиях высокой конкуренции и информационного давления, поскольку негативное восприятие способно подорвать доверие инвесторов и негативно сказаться на рыночной капитализации. Целью исследования является установление наличия, направления и силы статистически значимой связи между квартальным агрегированным показателем медиа-тональности и изменением цены акций Ozon. Основная гипотеза предполагает прямую положительную корреляцию: улучшение тональности упоминаний в СМИ ассоциируется с ростом котировок, а преобладание негативной информации - с их снижением. Методология включала сбор квартальных данных о котировках акций Ozon и текстовых упоминаний (Google Новости, 2021-2024). Для сентимент-анализа применялась нейросетевая модель DeepPavlov. Взаимосвязь медиа-тональности и динамики цен акций оценивалась корреляционным анализом Пирсона (α=0.05). Научная новизна заключается в количественной оценке влияния агрегированной поквартальной тональности русскоязычных новостных сообщений на динамику котировок акций крупной российской e-commerce компании, дополняя знания о специфике российского информационного поля. Основные результаты подтвердили гипотезу: выявлена сильная положительная статистически значимая корреляция (r = 0.72, R² = 0.52, p “ 0.001) между медиа-тональностью и ценами акций Ozon. Это указывает, что около 52% вариаций в изменении цен акций могут быть объяснены тональностью СМИ. Исследование имеет ограничения (не учтены соцсети, корпоративные новости, макрофакторы). Практически результаты могут использоваться инвесторами для оценки рисков, а Ozon - для разработки PR-стратегий, оперативного реагирования на негатив и формирования позитивного имиджа для укрепления рыночных позиций и повышения инвестиционной привлекательности.

Издание: ФИНАНСЫ И УПРАВЛЕНИЕ

Выпуск: № 2 (2025)

Автор(ы): Шиболденков Владимир Александрович, Тюрнев Александр Николаевич, Афанасьев Кирилл Миронович, Пресняков Артем Олегович

Сохранить в закладках

Автоматическая саммаризация родительских чатов в WhatsApp (2025)

Автоматическая саммаризация текста – одна из ключевых задач NLP, предполагающая создание краткой версии исходного текста. В современном мире, где объемы потребляемой человеком информации неустанно растут, задаче саммаризации уделяется все больше внимания. Автореферирование предполагает два основных подхода: экстрактивный и абстрактивный. Последний заключается в автоматическом создании саммари текста, в котором могут содержаться слова и предложения, не встречающиеся в источнике. Этот подход зачастую требует использования нейросетевых моделей, и для его реализации необходимы большие наборы специальным образом размеченных данных. Несмотря на значительные успехи в абстрактивной саммаризации публицистических и научных текстов, методы и датасеты, используемые для работы с монологическими документами, не всегда применимы для саммаризации диалогов. Кроме того, хотя создано достаточно много англоязычных датасетов для саммаризации текстов различных доменов, существующие наборы данных для автоматического аннотирования текстов на русском языке пока немногочисленны. Настоящая статья посвящена разработке и описанию русскоязычного диалогового датасета для саммаризации сообщений в родительских чатах и последующему обучению модели абстрактивной саммаризации для русского языка на авторском наборе диалоговых данных. В качестве материала выступил родительский чат с учителем в мессенджере WhatsApp. Процесс ручной разметки датасета включал в себя разбиение всех сообщений чата на отдельные диалоги, создание саммари и присвоение тематических меток для каждого разговора. В результате был создан датасет, содержащий 616 диалогов, в общей сложности состоящих из 3380 сообщений. Для файн-тьюнинга были выбраны модели-трансформеры ruT5, mT5 и RuGPT (ruT5 и RuGPT были предварительно обучены на русскоязычном датасете для автоматической саммаризации новостей), а для оценки их качества – метрики ROUGE-1, ROUGE-2, ROUGE-L, BLEU и BERTScore. В результате модели ruT5, дообученной на авторском датасете, удалось превзойти бейзлайн по всем пяти метрикам.

Издание: ВЕСТНИК НГУ. СЕРИЯ: ЛИНГВИСТИКА И МЕЖКУЛЬТУРНАЯ КОММУНИКАЦИЯ

Выпуск: Том 23, № 1 (2025)

Автор(ы): Дмитриева Кристина Александровна, Жолус Марина Романовна

Сохранить в закладках

Опыт анализа социального самочувствия горожан: соотнесение характеристик городской инфраструктуры здоровья и тональности текстов из социальных сетей (на примере Санкт-Петербурга) (2024)

В статье описаны результаты исследования социального настроения горожан на основе текстовых данных из социальной сети ВКонтакте. Объект исследования – город Санкт-Петербург. Предлагаемый метод предполагает сопоставление тональности дискуссий пользователей социальных медиа с количественными данными, описывающими инфраструктуру города. Такое сопоставление возможно благодаря тому, что текстовые данные могут быть привязаны к району. Целью исследования было проанализировать возможности предлагаемого подхода, поэтому в качестве количественных данных взяты датасеты, описывающие инфраструктуру города по маркеру «поддержание здоровья»: количество поликлиник, больниц, площадок для занятия спортом. В статье описываются подходы к анализу тональности специфических текстовых данных (приводятся метрики качества используемых моделей), обосновывается актуальность связывания подобного рода данных с количественными показателями (статистиками, участвующими традиционно в методиках оценки благополучия городской среды). В работе продемонстрированы итоговые прикладные результаты: данные исследования нанесены на карту города.

Издание: ВЕСТНИК НГУ. СЕРИЯ: ЛИНГВИСТИКА И МЕЖКУЛЬТУРНАЯ КОММУНИКАЦИЯ

Выпуск: Том 22, № 1 (2024)

Автор(ы): Чижик Анна Владимировна, Садохин Александр Петрович

Сохранить в закладках

ОБЗОР СОВРЕМЕННЫХ ПОДХОДОВ К АВТОМАТИЗАЦИИ РЕЦЕНЗИРОВАНИЯ ТЕКСТОВ СЛОЖНЫХ РАБОТ СТУДЕНТОВ И МОЛОДЫХ УЧЕНЫХ (2025)

Рецензирование текстов сложных документов, то есть документов, как имеющих сложную структуру, так и затрагивающих значительное количество вопросов, является неотъемлемой составляющей образовательного процесса и научно-исследовательской деятельности. Однако данный процесс требует внимания, глубокого анализа и индивидуального подхода, что сложно обеспечить при возрастающем объеме научных работ. В связи с этим актуальной становится задача автоматизации рецензирования. Целью данного исследования является сравнительный анализ методов автоматизации рецензирования научных текстов для выявления наиболее эффективных подходов. Для проведения обзора было проанализировано 176 актуальных исследовательских и обзорных статей из открытых баз ScienceDirect и IEEExplore, опубликованных не ранее 1 января 2015 г., из которых было выбрано 40. Выбранные источники были разделены на четыре группы по виду используемых методов: статистические методы, методы обработки естественного языка с машинным обучением, большие языковые модели, в том числе с дополнительными функциями. Для каждой из групп методов выявлены основные функции и оценена глубина решения задачи рецензирования. Проведенный сравнительный анализ методов показывает, что наибольшую эффективность и глубину решения задачи рецензирования показывают большие языковые модели с дополнительными функциями (прежде всего дополнительно обученные). Вместе с тем для более эффективного использования вычислительных ресурсов предлагается комплексный подход, объединяющий как большие языковые модели, так и методы обработки естественного языка.

Издание: СОВРЕМЕННЫЕ НАУКОЕМКИЕ ТЕХНОЛОГИИ

Выпуск: № 6 (2025)

Автор(ы): Бондарев Ю. А., Терещенко В. В., Марцинкевич В. И., Духанов А. В.

Сохранить в закладках

ОПРЕДЕЛЕНИЕ ТОНАЛЬНОСТИ ТЕКСТОВ МЕТОДАМИ КОМПЬЮТЕРНОЙ ЛИНГВИСТИКИ: АНАЛИЗ ОТЗЫВОВ О ТОРГОВЫХ СЕТЯХ (2025)

Статья посвящена анализу тональности текста (sentiment analysis) - области компьютерной лингвистики и интеллектуального анализа текста, направленной на извлечение субъективных мнений и эмоций из текстов. Целью исследования является выявление возможностей стандартных методов компьютерной лингвистики для определения тональности отзывов о работе торговых сетей. Основной задачей анализа тональности текста служит определение того, является ли данный текст позитивным, негативным или нейтральным. Рассматриваются различные названия и подходы к данной технологии, такие как мониторинг брендов и анализ социальных медиа, которые получили значительное развитие в последние годы благодаря росту популярности Интернета. В исследовании акцентируется внимание на методах классификации, включая подходы на основе правил и машинного обучения, где последняя категория охватывает современные методы глубокого обучения. Также представлено описание объекта исследования - массива отзывов о торговых сетях - с указанием на методику обработки и анализа данных. Одним из основных результатов является вывод, что необходима тщательная предварительная обработка данных с целью отсеивания дубликатов отзывов. В результате этого с помощью классических методов можно получить правильную классификацию отдельных предложений отзывов с точностью до 72%. Использованный в публикации метод группировки отзывов по соотношению положительных, отрицательных и нейтральных предложений позволяет довести точности определения тональности отзывов до 90%.

Издание: СОВРЕМЕННЫЕ НАУКОЕМКИЕ ТЕХНОЛОГИИ

Выпуск: № 5 (2025)

Автор(ы): Ванюлин Александр Николаевич, Алексеева Наталья Робертовна

Сохранить в закладках

Технологии искусственного интеллекта при формировании архивной среды: проблемы и перспективы (2025)

В статье рассматриваются перспективы использования технологий искусственного интеллекта (ИИ) для создания и развития цифровой архивной среды, а также их влияние на оптимизацию, автоматизацию процессов работы с архивными данными. Основной целью работы является анализ современных цифровых решений, направленных на улучшение процессов хранения, поиска и обработки архивных документов (в том числе рукописных, поврежденных, многоязычных). В работе исследуются ключевые технологии, применяемые в цифровых архивах, включая интеллектуальное сканирование, обработку естественного языка (NLP), компьютерное зрение, машинное обучение и методы интеллектуального поиска. Особое внимание уделяется проблемам утраты архивных материалов, необходимости их восстановления, обеспечения безопасности и доступности данных, что особенно актуально в условиях нестабильной политической ситуации и ограниченных ресурсов для новых территорий. Исследование основано на системном анализе современных информационных технологий и их применении в архивном деле. В работе используются методы сравнительного анализа, классификации и прогнозирования, что позволяет определить ключевые направления внедрения ИИ в архивную сферу. Новизна работы заключается в комплексном подходе к анализу применения ИИ в архивной сфере, выявлении проблемных аспектов цифровизации архивов и предложении по автоматизации процессов хранения, обработки и поиска архивных данных. Сделан вывод о том, что технологии искусственного интеллекта способны значительно повысить эффективность работы архивов, обеспечивая ускоренную обработку документов, интеллектуальную классификацию, защиту данных и удобный доступ к информации. Кроме того, подчеркивается необходимость разработки новых алгоритмов на основе машинного обучения, которые позволят улучшить распознавание рукописных текстов, обработку поврежденных документов и многоязычных архивных материалов. Внедрение таких технологий становится важной частью стратегии цифровой трансформации архивного дела и играет ключевую роль в сохранении исторического наследия.

Издание: ИСТОРИЧЕСКАЯ ИНФОРМАТИКА

Выпуск: № 1 (51) (2025)

Автор(ы): Мащенко Наталья Евгеньевна, Гайдарь Елена Валентиновна

Сохранить в закладках

БАЗОВЫЕ МЕТОДИКИ АНАЛИЗА ЯЗЫКОВЫХ КАРТИН ПОЛИТИКИ С ПОМОЩЬЮ ЯЗЫКА ПРОГРАММИРОВАНИЯ PYTHON И БИБЛИОТЕКИ NLTK (НА МАТЕРИАЛАХ КОРПУСОВ БРИТАНСКОГО ПАРЛАМЕНТСКОГО ДИСКУРСА) (2024)

В рамках данной статьи предлагается один из возможных вариантов оптимального набора базовых методик, необходимых для изучения языковых картин мира на материалах крупных текстовых корпусов с использованием сочетания языка высокоуровневого языка программирования Python и библиотеки NLTK (Natural Language Toolkit). Необходимость выделения и конкретизации означенного методологического инструментария проистекает из характера тех вызовов, которые стоят перед современной когнитивной лингвистикой и лексикологией в сфере анализа больших неструктурированных данных. Работоспособность и практическая ценность предлагаемых методик демонстрируется на примере составленных автором сплошных параллельных диахронических корпусов дискурса обеих палат британского парламента за период с 2006 по 2023 гг., совокупный объём которых превышает треть миллиарда токенов. Набор предлагаемых методик включает в себя инструменты анализа базовых параметров вокабуляра, инструменты извлечения целевого вокабуляра, а также обработки и визуализации его частотных параметров и сочетаемости. Целесообразность овладения предлагаемыми и систематизируемыми в рамках данной статьи методиками автоматического анализа текста обосновывается с позиции их необходимости как компетентностного минимума в области компьютерных технологий, который способен значительно повысить уровень лингвистических исследований и их научную конкурентоспособность. Автор приходит к выводу о том, что в силу объективно сложившихся условий современному отечественному исследователю языковых картин мира с высокой долей вероятности придётся включить в свой прикладной инструментарий сочетание языка программирования Python и библиотеки NLTK. Предлагаемые в данной статье методики делают возможным гибкое формирование исследовательских протоколов с учётом широкого разнообразия возможных приоритетов. В качестве главного преимущества предлагаемого автором набора методов машинной обработки и количественного анализа текста видится возможность использования практических навыков, полученных в результате её освоения как комфортной компетентностной основы для последующей интеграции овладевшего ими лингвиста в сообщество исследователей наиболее высокотехнологичных и наиболее актуальных на сегодняшний день направлений науки о языке.

Издание: ФИЛОЛОГИЧЕСКИЕ НАУКИ В МГИМО

Выпуск: Т. 10 № 2 (2024)

Автор(ы): Гагарин Сергей Николаевич

Сохранить в закладках

СИНТАКСИЧЕСКАЯ ПОЗИЦИЯ "НАРОДА" В ПОЛИТИЧЕСКОМ ДИСКУРСЕ ЛЕВОГО И ПРАВОГО ПОПУЛИЗМА (ОПЫТ СИНТАКСИЧЕСКОГО АНАЛИЗА НА ОСНОВЕ NLP) (2024)

В данной статье предпринимается попытка измерить популизм в англоязычных выступлениях политиков с использованием методов компьютерной лингвистики. Актуальность данного исследования связана не только с ростом популизма в мире и важностью понимания механизмов политического дискурса, но и недостатком лингвистических исследований в контексте корпусных исследований. Большинство предложенных на сегодняшний день методов требуют значительных ресурсов или страдают от структурных ограничений, особенно когда они в значительной степени зависят от процесса аннотирования человеком для анализа обширных корпусных данных. Материалом для исследования послужили публичные выступления и интервью правого политика-популиста и 45-ого президента США Дональда Трампа и политическая риторика политика-популиста левого толка - сенатора Берни Сандерса. Корпусный анализ проводился на основе транскриптов, загруженных с сайтов The American Presidency Project и Miller Center. Синтаксическая позиция ключевых лексических единиц определяется при помощи комплексного метода, основанного на грамматике зависимостей, в сочетании с методами обработки естественного языка (NLP) и лингвистической теории ван Левена. Применение методов обработки естественного языка подтверждает предположение, что частота обращения политиков к народу не является единственным значимым показателем для измерения народоцентризма в (популистском) политическом дискурсе, как обычно предлагается в политологической литературе. Результаты исследования указывают на отсутствие превалирующей роли народа в дискурсе Трампа и Сандерса. В большинстве случаев народ выступает в роли комплемента или адъюнкта, что свидетельствует о его второстепенном значении в их риторике. С учётом того, что популизм подразумевает близость к народу и позиционируется как “vox populi” - «голос народа», можно предположить, что как для Трампа, так и для Сандерса обращение к теме народа - это лишь способ достижения своих политических целей.

Издание: ФИЛОЛОГИЧЕСКИЕ НАУКИ В МГИМО

Выпуск: Т. 10 № 2 (2024)

Автор(ы): Галочкин Александр Евгеньевич

Сохранить в закладках

АНАЛИЗ КАЧЕСТВА РЕКОНСТРУКЦИИ БИЗНЕС-ПРОЦЕССОВ С ПОМОЩЬЮ ЯЗЫКОВОЙ МОДЕЛИ CHATGPT (2025)

Разработку программного обеспечения сложно представить без инструментов автоматизации рутинной деятельности, не малая часть которой приходится на формализацию требований с помощью графических языков моделирования процессов. Преобразование текстовой информации в формализованные процессы занимает много времени бизнес-аналитиков, большая часть которого может быть направлена и на другие важные задачи, в число которых входит как согласование постановок задач с заказчиками, так и с разработчиками. Решением поставленной проблемы может стать применение стремительно развивающихся нейросетевых инструментов, предназначенных для обработки естественного языка. Целью данного исследования является анализ возможностей повышения эффективности трудовой деятельности бизнес-аналитиков в части реконструкции бизнес-процессов с помощью языковой модели ChatGPT 4.0. Научная новизна работы заключается в получении ранее неизвестных результатов эффективности ChatGPT для реконструкции отдельных проекций бизнес-процессов(поток управления, данные, ресурсы, операции) на основании изучения результатов реконструкции 54 коротких пользовательских сценариев с последующим сравнительным анализом с существующим подходом реконструкции процессов на основе правил грамматики зависимостей. Практическая значимость исследования обусловлена возможностью использования полученных данных для уточнения схем обработки пользовательских историй. В работе решаются следующие задачи: анализ архитектуры и возможностей модели ChatGPT 4.0 в части обработки естественного языка, разработка методики оценки качества реконструкции бизнес-процессов, экспериментальная оценка качества реконструкции, получение статистических оценок, сравнительный анализ с существующим подходом на основе правил грамматики зависимостей. Для достижения поставленных задач в работе используется аппарат статистической обработки данных, экспертного анализа, прикладной лингвистики и нейронных сетей.

Издание: ТЕХНИКА СРЕДСТВ СВЯЗИ

Выпуск: № 1 (169) (2025)

Автор(ы): Буравлев Андрей Сергеевич, Демидова Дарья Андреевна, Ткачева Екатерина Александровна

Сохранить в закладках

ПРИКЛАДНОЕ ИСПОЛЬЗОВАНИЕ ОНТОЛОГИЙ В КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ (2025)

Целью работы является создание эффективного инструмента для проведения межъязыкового анализа с использованием онтологической базы знаний. Основная гипотеза исследования заключается в том, что систематизация и визуализация онтологических моделей помогают выявлять сходства и различия между языковыми единицами. Методы исследования включают в себя определение подхода к проведению межъязыкового анализа текстов, изучение принципов построения онтологических баз знаний, а также проектирование, разработку и тестирование программного обеспечения. Результатом исследования явилось веб-приложение, которое демонстрирует потенциал инструмента для межъязыкового анализа текстов с использованием онтологической базы данных.

Издание: REPORTS SCIENTIFIC SOCIETY

Выпуск: № 3 (59) (2025)

Автор(ы): ШУКЕНБАЕВА НАИЛЯ ШАУКАТОВНА, БОБРОВ А. В., ШУКЕНБАЕВ АЙРАТ БИСЕНГАЛЕЕВИЧ

Сохранить в закладках