Приведены описание методики построения нечётких классификаторов данных смешанного типа, их многокритериальная оценка и выбор на основе принципов оптимальности. Методика состоит из следующих основных разделов: 1) трехэтапное построение множества нечётких классификаторов смешанных данных с использованием метаэвристического алгоритма «саранчи»; 2) ранжирование полученных классификаторов по трём критериям: ошибка классификации, количество признаков, количество правил; 3) нормализация рангов; 4) формированные Парето-множества классификаторов; 5) выбор нечёткого классификатора на основе принципов оптимальности.
Предложен алгоритм построения нечеткого классификатора типа Min-Max с адаптацией параметра максимального размера гипербокса с помощью регрессионной модели. Модель для нахождения параметра разрабатывалась на основе методов машинного обучения. Для этого предложена система из 38 метапризнаков, характеризующих свойства наборов данных и вычисляемых рекуррентно для обеспечения онлайн-обучения. Проведен вычислительный эксперимент построения классификаторов предложенным алгоритмом для решения таких задач кибербезопасности, как обнаружение спама, обнаружение фишинговых сайтов и обнаружение атак на сетевые ресурсы. В задачах обнаружения спама и фишинговых сайтов предлагаемый алгоритм продемонстрировал статистически значимое увеличение точности по сравнению с алгоритмом классификации типа Min-Max без использования регрессионной модели.
Предложены шесть методов бинаризации алгоритма стаи ласточек для решения задачи отбора признаков по методу обертки. Эффективность выбранных подмножеств признаков оценивается двумя классификаторами: нечетким классификатором и классификатором на основе k-ближайших соседей. При поиске оптимального подмножества признаков учитывались количество признаков и точность классификации. Разработанные алгоритмы протестированы на наборах данных из репозитория KEEL. Для статистической оценки методов бинаризации использовался двухфакторный дисперсионный анализ Фридмана для связных выборок. Лучшие способности к отбору признаков показал гибридный метод, основанный на методе модифицированных алгебраических операций и введенной нами операции MERGE. Лучшая точность классификации получена с использованием метода V-образной функции трансформации.