Применение систем искусственного интеллекта на основе методов машинного обучения в критически важных проблемных областях связано с высокими рисками и требует объяснения человеку полученного результата. Прогностические модели, обладающие таким свойством, называются интерпретируемыми. Отсутствие такой возможности снижает уровень доверия к результату и может быть причиной замедления общественного принятия и внедрения таких систем. Системы искусственного интеллекта на основе нечетких систем позволяют объяснить результат своего решения. Благодаря наличию базы продукционных правил они способны выражать знания в ориентированной на человека форме, используя термины естественного языка. Предложена методика построения нечетких классификаторов, направленная на улучшение интерпретируемости с учетом недостатков известных методов построения. Методика включает в себя применение алгоритмов смешанной многокритериальной оптимизации, дискретной оптимизации, градиентного спуска и метода разделения данных. Проведен эксперимент на 38 общедоступных наборах данных из различных проблемных областей для оценки эффективности классификаторов, построенных с помощью предлагаемой методики. Проведено статистическое сравнение с известными интерпретируемыми классификаторами - генетическими нечеткими системами FARC-HD и деревьями решений CART. Применение методики позволило при сопоставимой точности статистически значимо повысить интерпретируемость классификаторов путем уменьшения числа правил, числа признаков и общего числа нечетких терминов по сравнению с генетическими системами FARC-HD и числа правил и числа условий в правиле по сравнению с классификаторами на основе деревьев решений CART. Достигнутые результаты свидетельствуют о высоком уровне интерпретируемости классификаторов, построенных с помощью предлагаемой методики.
Предложен алгоритм построения нечеткого классификатора типа Min-Max с адаптацией параметра максимального размера гипербокса с помощью регрессионной модели. Модель для нахождения параметра разрабатывалась на основе методов машинного обучения. Для этого предложена система из 38 метапризнаков, характеризующих свойства наборов данных и вычисляемых рекуррентно для обеспечения онлайн-обучения. Проведен вычислительный эксперимент построения классификаторов предложенным алгоритмом для решения таких задач кибербезопасности, как обнаружение спама, обнаружение фишинговых сайтов и обнаружение атак на сетевые ресурсы. В задачах обнаружения спама и фишинговых сайтов предлагаемый алгоритм продемонстрировал статистически значимое увеличение точности по сравнению с алгоритмом классификации типа Min-Max без использования регрессионной модели.
Представлена новая методика идентификации автора программного кода, основанная на multi-view-подходе. Целью исследования является повышение точности и устойчивости идентификации авторства за счет объединения различных представлений программного кода: исходного кода, абстрактного синтаксического дерева, графа потока управления и дизассемблированного кода. Для построения моделей использовались современные методы машинного обучения, позволяющие интегрировать и анализировать комплексные признаки из разных источников. Нроведенные эксперименты показали, что разработанная multi-view-архитектура обеспечивает значительное улучшение качества идентификации по сравнению с традиционными подходами, использующими только одно представление кода. Так, на задачах с закрытым множеством авторов достигнуты значения точности и F1 -макро до 0,97, а на открытых множествах отмечена высокая устойчивость к появлению новых авторов и вариативности стилей программирования. В задаче верификации автора комплексные признаки позволили достичь точности до 0,98 и снизить EER до 0,04.