Архив статей

НАБОР ДАННЫХ ДЛЯ ВЫЯВЛЕНИЯ ИСКУССТВЕННО СГЕНЕРИРОВАННОГО ИСХОДНОГО КОДА (2025)

Современные генеративные языковые модели активно используются для автоматической генерации исходного кода, что приводит к необходимости разработки методов его обнаружения. Однако создание наборов данных для определения сгенерированного кода остается затруднительной задачей. В данной работе проводится анализ существующих наборов данных с выявлением их ограничений. Разработан авторский набор данных, включающий решения задач в виде кода на языке программирования Python, написанные людьми и сгенерированные современными языковыми моделями. Проведена экспериментальная оценка с использованием методов машинного обучения. Результаты демонстрируют перспективность предложенного набора, но указывают на необходимость его дальнейшего расширения или же проведения новых экспериментов для подбора наилучшей модели.