Рассматривается актуальная проблема поиска закономерностей в больших объемах статистических данных. Инструментом анализа данных выступает регрессионный анализ. При построении регрессионных моделей исследователи зачастую стремятся только к их высокому качеству аппроксимации. Но, как отмечено в современных научных работах, одной такой метрики недостаточно. Поэтому сегодня активно развивается интерпретируемое машинное обучение. Ранее автором было предложено определение вполне интерпретируемой линейной регрессии, а задача ее построения была формализована в виде задачи частично-булевого линейного программирования. Исследования выявили высокую эффективность разработанного математического аппарата при решении задач обработки больших данных. Поэтому было принято решение расширить предложенную технологию для построения квазилинейных регрессий. В статье дано определение вполне интерпретируемой квазилинейной регрессии, включающее 6 условий. Разработан алгоритм интерпретации влияния в оцененной квазилинейной регрессии монотонно преобразованных объясняющих переменных на зависимую переменную. Задача построения вполне интерпретируемой квазилинейной регрессии формализована в виде задачи частично-булевого линейного программирования. Показано, как в этой задаче выбирать допустимые границы параметра M. Для демонстрации работоспособности предложенного математического аппарата решена задача моделирования прочности бетона на сжатие по данным, содержащим более 1000 наблюдений. Для этого использовалась программа «ВИнтер-2». В построенную модель вошли следующие преобразованные переменные: цементно-водное отношение, шлак доменной печи, пластификатор и возраст бетона. Построенная регрессия оказалась лучше по качеству аппроксимации и проще по структуре существующей модели. Дана интерпретация построенной квазилинейной регрессии. Влияние объясняющих переменных на прочность бетона в ней согласуется как с содержательным смыслом задачи, так и с другими существующими математическими моделями. Предложенная в статье технология построения вполне интерпретируемых квазилинейных регрессий обладает высоким потенциалом для решения задач обработки больших данных в различных предметных областях.
Статья посвящена решению проблемы выбора наиболее информативных регрессоров в неэлементарных линейных регрессиях, включающих в себя в общем случае не только объясняющие переменные, но и все возможные комбинации их пар, преобразованные с помощью бинарных операций min и max. Известно, что оптимальное решение такой задачи может быть достигнуто методом полного перебора всех возможных моделей. Но даже для линейной регрессии он до сих пор остается самым трудоёмким из всех существующих методов отбора, а для неэлементарных линейных регрессий, в которых число регрессоров на порядок больше, его трудоёмкость значительно возрастает. Известно, что быстро получить хоть и не оптимальное зачастую, но хорошее решение позволяет метод включения регрессоров. Учитывая, что в состав неэлементарных линейных регрессий входят не только объясняющие переменные, но и регрессоры, содержащие внутри себя неизвестные параметры, то такие модели требуют разработки новых алгоритмов метода включения. В данной статье состав регрессоров в неэлементарных линейных регрессиях расширен ещё больше за счёт использования бинарных операций со свободным членом. Предложено два алгоритма метода включения. Первый из них реализуется без корректировки входящих в бинарные операции коэффициентов, а второй - с корректировкой. В этой связи вычислительная сложность второго алгоритма выше, чем у первого, но при этом второй позволяет получать более качественные решения. Тестирование алгоритмов проведено на примере моделирования численности безработных и уровня безработицы в Иркутской области. Наилучшие результаты показал второй алгоритм. Полученные высокоточные модели с пятью регрессорами и с коэффициентами детерминации 0,982 и 0,971 превзошли по качеству даже переобученные полиномиальные регрессии с четырнадцатью регрессорами.
Статья посвящена проблеме оценки с помощью метода наименьших модулей неизвестных параметров регрессионных моделей с целочисленной функцией пол. Исследуется ситуация, когда зависимая переменная носит категориальный характер. Для включения в регрессионную модель категориальной переменной предварительно проводится ее маркировка (кодирование), состоящая в присвоении каждой категории уникального целого значения. Цель данной работы состоит в формализации в терминах аппарата частично целочисленного линейного программирования задачи идентификации не только неизвестных параметров регрессионной модели с целочисленной функцией пол, но и оптимальных маркеров категорий зависимой переменной. На примере решения задачи классификации семи видов животных доказана корректность разработанного математического аппарата. При этом сначала продемонстрировано, что при случайной маркировке категориальной переменной качество регрессии существенно меняется. Затем предложенным способом найдена оптимальная маркировка категорий зависимой переменной. Полученная модель, по которой было неверно классифицировано только 12 животных из 101, превзошла по качеству все построенные автором регрессии. Предложенный способ оценки параметров регрессионных моделей с автоматической идентификацией маркеров зависимой категориальной переменной может успешно применяться при решении задач классификации.
В статье рассмотрен математический приём, состоящий в представлении функции Леонтьева в виде эквивалентной многослойной конструкции.
На основе этого представления разработан алгоритм приближённого оценивания неизвестных параметров функции Леонтьева. С использованием реальной выборки данных из 101 наблюдения проведены вычислительные эксперименты.
В результате работы алгоритма с использованием метода наименьших модулей приближённые оценки функций Леонтьева получились мало отличающимися от точных оценок, найденных посредством решения задач частично-булевого линейного программирования. При этом приближённые оценки были получены в разы быстрее, чем точные оценки. А при использовании метода наименьших квадратов скорость работы алгоритма оказалась ещё выше.
Введена новая спецификация многослойных неэлементарных линейных регрессий, для которой справедлив разработанный алгоритм. С помощью метода наименьших квадратов по той же выборке построена одна из возможных форм новых моделей, оказавшаяся адекватнее функции Леонтьева.
Статья посвящена проблеме отбора заданного числа наиболее информативных регрессоров в линейных регрессиях. При использовании метода наименьших квадратов точное решение этой задачи по критерию максимизации коэффициента детерминации при задействовании всей выборки данных может быть получено в результате решения особым образом сформулированной задачи частично-булевого линейного программирования. Однако в машинном обучении важным этапом при создании надежной и эффективной модели считается её построение по обучающей выборке и проверка точности её предсказания по тестовой выборке. Поэтому в статье сформулирована оптимизационная задача отбора информативных регрессоров в линейных регрессиях по критерию минимизации средней абсолютной ошибки на тестовой выборке. Формулировка основана на известном приёме, согласно которому абсолютные ошибки должны быть представлены в виде разности между двумя неотрицательными переменными. С использованием встроенных в пакет Gretl статистических данных о заработной плате спортсменов и решателя оптимизационных задач LPSolve проведены вычислительные эксперименты. Для этого обучающая выборка формировалась из 70%, 75% и 80% наблюдений. Во всех этих случаях среднее снижение значения коэффициента детерминации моделей составило 24,76%, 18,4% и 12,22%, но при этом средняя абсолютная ошибка уменьшилась на 24,8%, 26,3% и 21,05% соответственно. Эксперименты показали, что среднее время решения задач при минимизации средней абсолютной ошибки на тестовых выборках оказалось в 2,33–2,85 раза выше, чем время решения задач при максимизации коэффициента детерминации на обучающих выборках.
Статья посвящена разработке и возможности применения в регрессионном анализе новой математической формы связи между выходной переменной и входными факторами. Для этого использованы ранее изученные более простые модели модульной линейной регрессии, в которых один или несколько входных факторов преобразуются единожды с помощью операции модуль. Предложен симбиоз линейной регрессии и модульной регрессии с мультиарной операцией модуль. На его основе сформулирована многослойная модульная регрессия, выстроенная по принципу «модуль в модуле», т. е. на каждом новом слое используется модуль от величины предыдущего слоя. Задача оценивания многослойной модульной регрессии с заданным числом слоев методом наименьших модулей сведена к задаче частично-булевого линейного программирования. С помощью предложенных регрессий решена задача моделирования запасов древесины в Иркутской области. При этом построены однослойная, двухслойная и трехслойная модульные регрессии. Новые модели по качеству оказались существенно лучше линейной регрессии, причем, с увеличением количества слоев наблюдалось снижение суммы модулей остатков. В трехслойной модели все остатки получились нулевыми. Разработанный математический аппарат может успешно применяться для решения многих задач анализа данных.
Статья посвящена проблеме отбора наиболее информативных регрессоров в линейной регрессии, оцениваемой с помощью метода наименьших квадратов. Ранее эта задача была формализована в виде задачи частично-булевого линейного программирования. Целевой функцией в ней выступает значение коэффициента детерминации, а линейные ограничения позволяют контролировать такие характеристики, как абсолютные вклады переменных в общую детерминацию, критерий Стьюдента, коэффициенты вздутия дисперсии, коэффициенты интеркорреляций. Цель данной статьи состоит в расширении задачи частично-булевого программирования линейными ограничениями, позволяющими контролировать в процессе построения по данным временных рядов степень автокорреляции остатков регрессии. Показано, что для обнаружения автокорреляции первого порядка достаточно вычислить коэффициент корреляции между остатками в текущий и предыдущий момент времени. Использовать коэффициент корреляции Пирсона для интеграции в задачу в виде линейных ограничений не представляется возможным. Поэтому был использован коэффициент Фехнера, зависящий от количества совпадений и несовпадений знаков отклонений двух переменных от их средних величин. Этот коэффициент, как и коэффициент Пирсона, принимает значения от -1 до +1. Чем ближе его абсолютное значение к единице, тем сильнее коррелируют переменные. Использование коэффициента Фехнера при вычислении автокорреляции остатков первого порядка позволило интегрировать его в задачу частично-булевого линейного программирования в виде линейных ограничений. Корректность сформулированной задачи подтверждена решением конкретного примера по реальным статистическим данным. При этом была построена модель с полным отсутствием автокорреляции остатков, уравнение которой совпало с уравнением полученной ранее при других ограничениях регрессии, что снова подтверждает ее адекватность.