Наумов Аркадий новое

Модель для поиска научных текстов улучшили в Институте ИИ МГУ

Коллектив ученых из Института ИИ МГУ представил новую версию модели SciRus-tiny 3.5-zh – компактного и мощного текстового энкодера, специально разработанного для эффективного поиска в массивах научных текстов. В новой версии упор был сделан на улучшение архитектуры модели и повышение качества работы модели с текстами на китайском языке, а также на русско-китайском поиске. Для этого дополнительно был разработан и опубликован в открытом доступе бенчмарк zh-ruSciBench.
В современном мире объем научной информации растет экспоненциально, и навигация в этом океане знаний становится очень сложной задачей. Большие языковые модели, или LLM (Large Language Models), кардинально изменили подходы к обработке текстов, предлагая мощные инструменты для анализа, поиска и извлечения информации. Однако большинство флагманских LLM требуют колоссальных вычислительных мощностей как для обучения, так и для использования, что делает их недоступными для многих небольших исследовательских лабораторий и индивидуальных ученых. Во-вторых, несмотря на то, что научный дискурс глобален, значительная часть исследований публикуется на языках, отличных от английского. Существующие модели либо ориентированы преимущественно на английский язык, либо их многоязычные возможности ограничены, особенно когда речь идет о кросс-языковом поиске, например, между английским или китайским и русским.
Семейство моделей SciRus для получения эмбеддингов научных текстов разработано с фокусом на оптимальное соотношение качества работы, стоимости применения и поддержки кросс-язычного поиска. В домене научных текстов модели сравнимы по качеству с эмбеддерами, сильнейшими по международному бенчмарку MTEB, будучи в десятки и сотни раз меньше по количеству параметров. Модели успешно интегрированы в портал eLibrary.ru, улучшая качество поиска. Также, в рамках работы над SciRus, ведется разработка ряда бенчмарков для оценки языковых моделей для научных текстов. Были опубликованы в открытом доступе, помимо нового zh-ruSciBench, бенчмарк ruSciBench с широким спектром задач, многие из которых вошли в международный бенчмарк MTEB, а также ruSciFact, позволяющий оценить способность современных языковых моделей к проверке фактов.
В новом поколении моделей используется архитектура ModernBERT вместо устаревшей RoBERTa: реализован комплекс улучшений, направленных на повышение эффективности, стабильности и качества понимания текста:
Новая позиционная кодировка. Классическая абсолютная кодировка заменена на RoPE, что обеспечивает более точное считывание относительных расстояний между токенами и позволяет лучше работать с более длинными последовательностями.
Обновление внутренних блоков. Традиционный MLP заменён на GeGLU, также улучшена функция активации GeLU, что повышает выразительность модели.
Оптимизация структуры. Исключены избыточные параметры смещения, благодаря чему архитектура стала компактнее и экономичнее в вычислениях.
Усиленная стабильность обучения. После embedding-слоя добавлена дополнительная нормализация, обеспечивающая более уверенную сходимость модели.
Ускоренная обработка входов. Реализовано эффективное удаление padding, позволяющее избежать лишних вычислений. В сочетании с нативной поддержкой RoPE Flash Attention это обеспечивает ускорение обработки последовательностей на 10-20%.
Обучение проходило в два этапа. На первом этапе модели обучались с нуля на огромном датасете, включающем более 50 млн научных текстов преимущественно на английском, русском и китайском языках. Основными источниками стали датасеты Semantic Scholar (31M), eLibrary (17M) и ScienceChina.cn (5M). Использовался метод обучения языковой модели с маскированием, в ходе которого модель учится предсказывать пропущенные токены в тексте, выучивая основные семантические и синтаксические закономерности языка.
Второй этап обучения – контрастивный. Это метод, который учит модели-эмбеддеры определять семантическую близость текстов. Датасет был сформирован в виде пар, и модель обучалась формировать эмбеддинги так, чтобы они у семантически близких текстов в многомерном пространстве также были близки, а у далеких – удалены друг от друга.
Исследователи экспериментировали с двумя типами таких пар. Первый, и наиболее доступный тип – это пары «заголовок-аннотация» одной и той же статьи. Предполагается, что заголовок и аннотация описывают одно и то же исследование, а значит, являются семантически близкими. Второй тип пар основан на цитированиях: если одна статья цитирует другую или если две статьи часто цитируются вместе (со-цитирование), их можно считать связанными по смыслу. Для этого этапа всего было использовано более 158 миллионов пар «заголовок-аннотация» и основанных на цитированиях, взятых из международного архива Semantic Scholar, российской научной электронной библиотеки eLibrary.ru и около 10 млн пар с китайского научного портала ScienceChina.cn.
При обучении SciRus-tiny 3.5-zh был переработан подход к балансировке данных, добавлено выравнивание по языкам (ru/en/zh) и типам текстов (title/abstract), а также проведены серии экспериментов, позволившие сохранить качество на русском и английском языках при одновременном расширении многоязычной поддержки на китайский. Удалось добиться высокого качества кросс-язычного поиска не только для пар ru–en и en–zh, но и для ru–zh, хотя примеров такой связки в обучающих данных не было. Это показывает, что модель можно масштабировать на любые языковые пары, даже при отсутствии параллельных корпусов, опираясь на третий язык – например, английский – в роли промежуточного.
«Мы получили впечатляющий результат: модель уверенно справляется с кросс-язычным поиском не только для привычных пар ru–en и en–zh, но и для ru–zh, хотя подобных примеров в обучающем датасете вовсе не было, – отметил Константин Воронцов, профессор РАН, руководитель лаборатории машинного обучения и семантического анализа Института ИИ МГУ. – Это означает, что нам удалось найти по-настоящему универсальный подход. Теперь мы можем обучать системы кросс-язычного поиска между любыми языками, даже если для них отсутствуют параллельные корпуса, используя третий язык – например, английский – как связующее звено».
Практическое применение моделей SciRus чрезвычайно широко. Они могут стать основой для создания эффективных систем поиска научной информации в цифровых библиотеках и архивах, позволяя исследователям быстро находить релевантные работы, в том числе на других языках. Их можно использовать для автоматической классификации научных статей по тематикам, для построения рекомендательных систем, которые могут подсказывать ученым новые публикации в их области интересов, или для анализа больших корпусов текстов с целью выявления научных трендов. Компактность моделей позволяет использовать их в проектах без использования GPU.

Источник пресс-служба МГУ

Чтобы оставить комментарий, необходимо зарегистрироваться или войти.