Статья посвящена проблеме оценки с помощью метода наименьших модулей неизвестных параметров регрессионных моделей с целочисленной функцией пол. Исследуется ситуация, когда зависимая переменная носит категориальный характер. Для включения в регрессионную модель категориальной переменной предварительно проводится ее маркировка (кодирование), состоящая в присвоении каждой категории уникального целого значения. Цель данной работы состоит в формализации в терминах аппарата частично целочисленного линейного программирования задачи идентификации не только неизвестных параметров регрессионной модели с целочисленной функцией пол, но и оптимальных маркеров категорий зависимой переменной. На примере решения задачи классификации семи видов животных доказана корректность разработанного математического аппарата. При этом сначала продемонстрировано, что при случайной маркировке категориальной переменной качество регрессии существенно меняется. Затем предложенным способом найдена оптимальная маркировка категорий зависимой переменной. Полученная модель, по которой было неверно классифицировано только 12 животных из 101, превзошла по качеству все построенные автором регрессии. Предложенный способ оценки параметров регрессионных моделей с автоматической идентификацией маркеров зависимой категориальной переменной может успешно применяться при решении задач классификации.
В статье рассмотрен математический приём, состоящий в представлении функции Леонтьева в виде эквивалентной многослойной конструкции.
На основе этого представления разработан алгоритм приближённого оценивания неизвестных параметров функции Леонтьева. С использованием реальной выборки данных из 101 наблюдения проведены вычислительные эксперименты.
В результате работы алгоритма с использованием метода наименьших модулей приближённые оценки функций Леонтьева получились мало отличающимися от точных оценок, найденных посредством решения задач частично-булевого линейного программирования. При этом приближённые оценки были получены в разы быстрее, чем точные оценки. А при использовании метода наименьших квадратов скорость работы алгоритма оказалась ещё выше.
Введена новая спецификация многослойных неэлементарных линейных регрессий, для которой справедлив разработанный алгоритм. С помощью метода наименьших квадратов по той же выборке построена одна из возможных форм новых моделей, оказавшаяся адекватнее функции Леонтьева.
Статья посвящена проблеме отбора заданного числа наиболее информативных регрессоров в линейных регрессиях. При использовании метода наименьших квадратов точное решение этой задачи по критерию максимизации коэффициента детерминации при задействовании всей выборки данных может быть получено в результате решения особым образом сформулированной задачи частично-булевого линейного программирования. Однако в машинном обучении важным этапом при создании надежной и эффективной модели считается её построение по обучающей выборке и проверка точности её предсказания по тестовой выборке. Поэтому в статье сформулирована оптимизационная задача отбора информативных регрессоров в линейных регрессиях по критерию минимизации средней абсолютной ошибки на тестовой выборке. Формулировка основана на известном приёме, согласно которому абсолютные ошибки должны быть представлены в виде разности между двумя неотрицательными переменными. С использованием встроенных в пакет Gretl статистических данных о заработной плате спортсменов и решателя оптимизационных задач LPSolve проведены вычислительные эксперименты. Для этого обучающая выборка формировалась из 70%, 75% и 80% наблюдений. Во всех этих случаях среднее снижение значения коэффициента детерминации моделей составило 24,76%, 18,4% и 12,22%, но при этом средняя абсолютная ошибка уменьшилась на 24,8%, 26,3% и 21,05% соответственно. Эксперименты показали, что среднее время решения задач при минимизации средней абсолютной ошибки на тестовых выборках оказалось в 2,33–2,85 раза выше, чем время решения задач при максимизации коэффициента детерминации на обучающих выборках.
Статья посвящена разработке и возможности применения в регрессионном анализе новой математической формы связи между выходной переменной и входными факторами. Для этого использованы ранее изученные более простые модели модульной линейной регрессии, в которых один или несколько входных факторов преобразуются единожды с помощью операции модуль. Предложен симбиоз линейной регрессии и модульной регрессии с мультиарной операцией модуль. На его основе сформулирована многослойная модульная регрессия, выстроенная по принципу «модуль в модуле», т. е. на каждом новом слое используется модуль от величины предыдущего слоя. Задача оценивания многослойной модульной регрессии с заданным числом слоев методом наименьших модулей сведена к задаче частично-булевого линейного программирования. С помощью предложенных регрессий решена задача моделирования запасов древесины в Иркутской области. При этом построены однослойная, двухслойная и трехслойная модульные регрессии. Новые модели по качеству оказались существенно лучше линейной регрессии, причем, с увеличением количества слоев наблюдалось снижение суммы модулей остатков. В трехслойной модели все остатки получились нулевыми. Разработанный математический аппарат может успешно применяться для решения многих задач анализа данных.
Статья посвящена проблеме отбора наиболее информативных регрессоров в линейной регрессии, оцениваемой с помощью метода наименьших квадратов. Ранее эта задача была формализована в виде задачи частично-булевого линейного программирования. Целевой функцией в ней выступает значение коэффициента детерминации, а линейные ограничения позволяют контролировать такие характеристики, как абсолютные вклады переменных в общую детерминацию, критерий Стьюдента, коэффициенты вздутия дисперсии, коэффициенты интеркорреляций. Цель данной статьи состоит в расширении задачи частично-булевого программирования линейными ограничениями, позволяющими контролировать в процессе построения по данным временных рядов степень автокорреляции остатков регрессии. Показано, что для обнаружения автокорреляции первого порядка достаточно вычислить коэффициент корреляции между остатками в текущий и предыдущий момент времени. Использовать коэффициент корреляции Пирсона для интеграции в задачу в виде линейных ограничений не представляется возможным. Поэтому был использован коэффициент Фехнера, зависящий от количества совпадений и несовпадений знаков отклонений двух переменных от их средних величин. Этот коэффициент, как и коэффициент Пирсона, принимает значения от -1 до +1. Чем ближе его абсолютное значение к единице, тем сильнее коррелируют переменные. Использование коэффициента Фехнера при вычислении автокорреляции остатков первого порядка позволило интегрировать его в задачу частично-булевого линейного программирования в виде линейных ограничений. Корректность сформулированной задачи подтверждена решением конкретного примера по реальным статистическим данным. При этом была построена модель с полным отсутствием автокорреляции остатков, уравнение которой совпало с уравнением полученной ранее при других ограничениях регрессии, что снова подтверждает ее адекватность.