Архив статей журнала
Рассматривается актуальная проблема поиска закономерностей в больших объемах статистических данных. Инструментом анализа данных выступает регрессионный анализ. При построении регрессионных моделей исследователи зачастую стремятся только к их высокому качеству аппроксимации. Но, как отмечено в современных научных работах, одной такой метрики недостаточно. Поэтому сегодня активно развивается интерпретируемое машинное обучение. Ранее автором было предложено определение вполне интерпретируемой линейной регрессии, а задача ее построения была формализована в виде задачи частично-булевого линейного программирования. Исследования выявили высокую эффективность разработанного математического аппарата при решении задач обработки больших данных. Поэтому было принято решение расширить предложенную технологию для построения квазилинейных регрессий. В статье дано определение вполне интерпретируемой квазилинейной регрессии, включающее 6 условий. Разработан алгоритм интерпретации влияния в оцененной квазилинейной регрессии монотонно преобразованных объясняющих переменных на зависимую переменную. Задача построения вполне интерпретируемой квазилинейной регрессии формализована в виде задачи частично-булевого линейного программирования. Показано, как в этой задаче выбирать допустимые границы параметра M. Для демонстрации работоспособности предложенного математического аппарата решена задача моделирования прочности бетона на сжатие по данным, содержащим более 1000 наблюдений. Для этого использовалась программа «ВИнтер-2». В построенную модель вошли следующие преобразованные переменные: цементно-водное отношение, шлак доменной печи, пластификатор и возраст бетона. Построенная регрессия оказалась лучше по качеству аппроксимации и проще по структуре существующей модели. Дана интерпретация построенной квазилинейной регрессии. Влияние объясняющих переменных на прочность бетона в ней согласуется как с содержательным смыслом задачи, так и с другими существующими математическими моделями. Предложенная в статье технология построения вполне интерпретируемых квазилинейных регрессий обладает высоким потенциалом для решения задач обработки больших данных в различных предметных областях.