Архив статей журнала
На современном этапе изучения отечественной истории становятся особенно актуальны дискуссии о работе с большими массивами документов по истории конца XIX - начала XXI в. Сегодня активно идет процесс оцифровки архивных коллекций, но в большинстве случаев созданный корпус просто выставляется на сайт, и многие годы с ним никто не работает, так как нередко мы сталкиваемся с трудностями обработки всего массива материалов при обращении к фондам крупного социального института. Оцифрованные фонды могут содержать сотни тысяч листов делопроизводственной документации. Ограниченность временных возможностей одного человека не позволяет даже на уровне беглого чтения охватить все имеющиеся документы. Данную проблему хотя бы частично может решить применение LLM (large language models) для аннотирования или оптимизации текстового поиска. Однако на текущем этапе развития архивного дела специалисты только начинают работать с методами обработки естественного языка. И основной запрос профессионального сообщества состоит в изучении специфики работы моделей искусственного интеллекта и машинного обучения с текстами исторического домена. Данная работа представляет собой предварительное исследование взаимодействия современных LLM с историческими текстами. Для анализа были выбраны одна из наиболее популярных моделей - BERT - и одна из наиболее распространенных NLP-задач - классификация. Важной частью исследования стал анализ весов внимания модели при решении задачи классификации текстов и заполнения пропусков в предложениях. При таком подходе у нас появилась возможность проанализировать, как модель использует семантический контекст для принятия решения.
Статья посвящена осмыслению трансформации методологии исторической науки под влиянием «цифрового поворота», с фокусом на ключевую дисциплину - источниковедение. Автор исследует, как стремительное развитие технологий искусственного интеллекта (ИИ), особенно машинного обучения, ставит перед исследователями-историками новые вызовы и открывает возможности, требуя переосмысления традиционных практик работы с историческими источниками. Центральной проблемой статьи является процесс перехода от исторического источника к формализованным данным (например, путем цифровой герменевтики) и обратно к интерпретации и новому историческому знанию. Автор подчеркивает, что этот процесс не просто техническая операция, а глубоко методологический акт абстрагирования (на примере собранных исторических данных, capta), сопряженный с неизбежными потерями нюансов и требующий критической рефлексии. Рассматриваются методологические дилеммы исторического исследования, такие как противостояние источнико-ориентированного (ad fontes, стремление к максимальной полноте) и проблемно-ориентированного (ceteris paribus, фокус на избранных параметрах) подходов, их эволюция в цифровую эпоху и связанные с ними дискуссии. Критически анализируется «иллюзия объективности» цифровых методов. Автор утверждает, что алгоритмы, цифровые инструменты (СУБД, ГИС, NLP) и интерфейсы не нейтральны: они несут в себе предубеждения, ограничивают фокус, упрощают сложность и иногда даже предопределяют исследовательские вопросы, что порождает риски: предвзятость алгоритмов, селективность данных, влияние дизайна визуализаций и интерфейсов, некритичное принятие результатов ИИ. В качестве перспективного решения, преодолевающего ключевые ограничения генеративных моделей (галлюцинации, «черный ящик», оторванность от источников), в статье подробно рассматривается RAG-подход (Retrieval-Augmented Generation), показаны его преимущества для историка. Главный вывод статьи подчеркивает незаменимую роль историка-исследователя в эпоху ИИ. RAG-системы и подобные инструменты выступают не как замена, а как мощные «цифровые лупы» или интеллектуальные ассистенты, берут на себя трудоемкие задачи поиска и первичной обработки данных, освобождая время историка для критической интерпретации, оценки достоверности источников, построения аргументации, формулировки исследовательских вопросов и создания нового исторического знания.