Онлайн библиотека научных статей на SciNetwork

АЛГОРИТМ ПОСТРОЕНИЯ БЫСТРЫХ ХЕШ-ФУНКЦИЙ, ОСНОВАННЫХ НА ЗАМЕЩЕНИИ СИМВОЛОВ

быстрая хэш-функция, статическое хеширование, замещение символов алфавита

Рассматриваются хеш-функции, основанные на замещении символов алфавита целыми неотрицательными числами. Основным параметром таких функций является отображение T, осуществляющее замещение; основное назначение функций - выполнение статического хеширования; главные преимущества -высокая скорость работы и простота их реализации. Предлагается алгоритм, выполняющий оптимизацию параметра T с целью уменьшения количества коллизий для заданного словаря. Приводятся примеры эффективных хеш-функций, основанных на замещении символов.

Формат документа: pdf

Год публикации: 2022

Кол-во страниц: 1

Загрузил(а): Решетников Артём

Язык(и): Русский

Сбор и анализ датасета для задачи автоматической генерации сообщений коммитов

генерация сообщений коммитов, системы контроля версий, описание изменений в про- граммном коде, КОСИНУСНОЕ СХОДСТВО, фильтрация данных, векторизация текста, датасет, машинное обучение

Цели. Для управления процессом разработки современного программного обеспечения нередко применяются системы контроля версий, которые позволяют фиксировать изменения в программном коде и передавать контекст этих изменений при помощи сообщений коммитов. Релевантное и качественное описание внесенных изменений при помощи таких сообщений требует от разработчика высокой компетенции и времени, но современные методы машинного обучения позволяют решать эту задачу автоматически. Целью работы является статистический и сравнительный анализ собранной выборки данных с наборами изменений в программном коде и их описаниями на естественном языке.

Методы. В исследовании использован комплексный подход, включающий сбор данных с популярных репозиториев на GitHub, предварительную обработку и фильтрацию данных, а также статистический анализ и метод обработки естественного языка (векторизация текста). Для оценки семантической близости между первым предложением и полным текстом сообщений коммитов было использовано косинусное сходство.

Результаты. Проведено исследование структуры и качества сообщений коммитов, включающее сбор данных из репозиториев GitHub и их предварительную очистку. Осуществлена векторизация текста сообщений коммитов и оценка семантической близости между первыми предложениями и полными текстами сообщений с использованием косинусного сходства. Выполнен сравнительный анализ качества сообщений в собранном датасете и в нескольких аналогичных наборах данных с помощью классификации при помощи модели CodeBERT.

Выводы. Проведенный анализ выявил низкий уровень косинусного сходства между первыми предложениями и полными текстами сообщений коммитов (0.0969), что свидетельствует о слабой семантической связи между ними и опровергает гипотезу о том, что первые предложения выступают в качестве обобщения содержания сообщений. Процентная доля пустых сообщений в собранном наборе данных составила лишь 0.0007%, что существенно ниже ожидаемого значения и указывает на высокое качество собранных данных. Классификационный анализ показал, что доля сообщений, отнесенных к категории «плохих», в собранном датасете составляет 16.82%, что значительно ниже аналогичных показателей в других сопоставимых наборах данных, где этот процент варьируется от 34.75% до 54.26%. Данный факт подчеркивает высокое качество собранного набора данных и его адекватность для дальнейшего применения в системах автоматической генерации сообщений коммитов.

Формат документа: pdf

Год публикации: 2025

Кол-во страниц: 1

Загрузил(а): Косьяненко Иван

Язык(и): Русский, Английский

ПРОЕКТИРОВАНИЕ ДАТАСЕТА ДЛЯ ПРОГНОЗИРОВАНИЯ РЕЗУЛЬТАТОВ СОРЕВНОВАНИЙ В КИБЕРСПОРТЕ

проектирование датасета, киберспорт, алгоритмы машинного обучения

Статья посвящена проектированию датасета для прогнозирования результатов соревнований в киберспорте с помощью методов машинного обучения. Показаны методы, библиотеки и метрики, позволяющие реализовать результаты спроектированного датасета для дальнейшего прогнозирования.

Формат документа: pdf

Год публикации: 2023

Кол-во страниц: 1

Загрузил(а): ГРАФОВА А.В.

Язык(и): Русский

SCI Библиотека