Научный архив: статьи

МЕТОДИКА ГЕНЕРАЦИИ И ВЫБОРА НЕЧЁТКИХ КЛАССИФИКАТОРОВ ДАННЫХ СМЕШАННОГО ТИПА (2025)

Приведены описание методики построения нечётких классификаторов данных смешанного типа, их многокритериальная оценка и выбор на основе принципов оптимальности. Методика состоит из следующих основных разделов: 1) трехэтапное построение множества нечётких классификаторов смешанных данных с использованием метаэвристического алгоритма «саранчи»; 2) ранжирование полученных классификаторов по трём критериям: ошибка классификации, количество признаков, количество правил; 3) нормализация рангов; 4) формированные Парето-множества классификаторов; 5) выбор нечёткого классификатора на основе принципов оптимальности.

ОПРЕДЕЛЕНИЕ МАКСИМАЛЬНОГО РАЗМЕРА ГИПЕРБОКСА В НЕЧЕТКОМ КЛАССИФИКАТОРЕ ТИПА MIN-MAX С ИСПОЛЬЗОВАНИЕМ РЕГРЕССИОННОЙ МОДЕЛИ (2025)

Предложен алгоритм построения нечеткого классификатора типа Min-Max с адаптацией параметра максимального размера гипербокса с помощью регрессионной модели. Модель для нахождения параметра разрабатывалась на основе методов машинного обучения. Для этого предложена система из 38 метапризнаков, характеризующих свойства наборов данных и вычисляемых рекуррентно для обеспечения онлайн-обучения. Проведен вычислительный эксперимент построения классификаторов предложенным алгоритмом для решения таких задач кибербезопасности, как обнаружение спама, обнаружение фишинговых сайтов и обнаружение атак на сетевые ресурсы. В задачах обнаружения спама и фишинговых сайтов предлагаемый алгоритм продемонстрировал статистически значимое увеличение точности по сравнению с алгоритмом классификации типа Min-Max без использования регрессионной модели.

МЕТОДЫ БИНАРИЗАЦИИ АЛГОРИТМА СТАИ ЛАСТОЧЕК ДЛЯ РЕШЕНИЯ ЗАДАЧИ ОТБОРА ПРИЗНАКОВ (2021)

Предложены шесть методов бинаризации алгоритма стаи ласточек для решения задачи отбора признаков по методу обертки. Эффективность выбранных подмножеств признаков оценивается двумя классификаторами: нечетким классификатором и классификатором на основе k-ближайших соседей. При поиске оптимального подмножества признаков учитывались количество признаков и точность классификации. Разработанные алгоритмы протестированы на наборах данных из репозитория KEEL. Для статистической оценки методов бинаризации использовался двухфакторный дисперсионный анализ Фридмана для связных выборок. Лучшие способности к отбору признаков показал гибридный метод, основанный на методе модифицированных алгебраических операций и введенной нами операции MERGE. Лучшая точность классификации получена с использованием метода V-образной функции трансформации.