Статья: НАБОР ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ ИСКУССТВЕННО СГЕНЕРИРОВАННОГО ИСХОДНОГО КОДА (2025)

Читать онлайн

Современные генеративные языковые модели активно используются для автоматической генерации исходного кода, что приводит к необходимости разработки методов его обнаружения. Однако создание наборов данных для определения сгенерированного кода остается затруднительной задачей. В данной работе проводится анализ существующих наборов данных с выявлением их ограничений. Разработан авторский набор данных, включающий решения задач в виде кода на языке программирования Python, написанные людьми и сгенерированные современными языковыми моделями. Проведена экспериментальная оценка с использованием методов машинного обучения. Результаты демонстрируют перспективность предложенного набора, но указывают на необходимость его дальнейшего расширения или же проведения новых экспериментов для подбора наилучшей модели.

Ключевые фразы: ИСХОДНЫЙ КОД, машинное обучение, языковые модели, набор данных, классификация кода
Автор (ы): БУКИНА С.Г. (BUKINA S.G.), ХАРЧЕНКО С.С. (HARCHENKO S.S.)
Журнал: ДОКЛАДЫ ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ

Предпросмотр статьи

Идентификаторы и классификаторы

SCI
Образование
УДК
004.912. Обработка текста
Для цитирования:
БУКИНА С.Г., ХАРЧЕНКО С.С. НАБОР ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ ИСКУССТВЕННО СГЕНЕРИРОВАННОГО ИСХОДНОГО КОДА // ДОКЛАДЫ ТОМСКОГО ГОСУДАРСТВЕННОГО УНИВЕРСИТЕТА СИСТЕМ УПРАВЛЕНИЯ И РАДИОЭЛЕКТРОНИКИ. 2025. Т. 28 № 2 (20 СТ.)
Текстовый фрагмент статьи
Будьте первым, кто начнет обсуждение

Если у вас возникли вопросы или появились предложения по содержанию статьи, пожалуйста, направляйте их в рамках данной темы.