Качество регрессионной модели в значительной степени определяется опытом специалистов, выполняющих сбор и исследование данных, в частности: надежными результатами наблюдений, наиболее близко определенными формами связей между переменными и верно подобранными методами оценки регрессии. Однако даже при наличии этих составляющих нельзя гарантировать оптимальный характер итоговой математической зависимости, потому как объем необходимых расчетов и проверок для поиска решения задачи оптимизации выходного уравнения часто оказывается существенно больше, чем можно выполнить вручную. В статье рассмотрены некоторые этапы подхода к процессу математического моделирования объекта методами регрессионного анализа данных, выделены проблемные места. В качестве варианта решения предлагается реализация алгоритмического программного комплекса, специализированного под описанный процесс моделирования. Проведен краткий обзор аналогов. Выводы сопровождаются графическим представлением функциональных требований к целевой программной реализации. Проектирование выполнено на концептуальном уровне.
В работе рассмотрены три формы кластерной регрессии: кластерная кусочно-линейная регрессионная функция Леонтьева, кластерная кусочно-линейная регрессионная функция риска, кластерная смешанная кусочно-линейная регрессия. Указано, что при определенных условиях задачи их построения могут быть сведены к задачам линейно-булева программирования.
В работе дан краткий обзор публикаций по кластеризации данных с помощью методов регрессионного анализа. Приведено краткое описание известного способа разбиения выборки данных на подвыборки на основе разделяющих регрессий, сводящегося к задаче минимизации сумм ошибок аппроксимации на всех этих подвыборках. Кроме того, рассмотрен способ решения задачи кластеризации с помощью обобщенного критерия согласованности поведения и его непрерывной формы. Решен численный иллюстративный пример.
В работе исследовано важное свойство метода наименьших модулей (англ. least absolute deviation, LAD) при разработке линейной регрессионной зависимости, в соответствии с которым число нулевых ошибок аппроксимации равно числу оцениваемых параметров модели. Предложен алгоритмический способ наделения этим свойством других методов оценивания параметров путем ввода в рассмотрение булевых переменных и формирования некоторых ограничений на ошибки при оптимизации соответствующих функций потерь. Реализация разработанной вычислительной схемы продемонстрирована на формировании задачи линейно-булева программирования для метода антиробастного оценивания параметров. Рассмотрен численный пример, связанный с построением модели добычи газа на опытно-промышленной установке УПГ-102 Ковыктинского газоконденсатного месторождения . В качестве независимых переменных при этом задействованы: приход водометанольного раствора, рабочее давление сепараторов С101 и С102б.
В работе описан алгоритмический способ определения численных оценок параметров простой формы вложенной кусочно-линейной регрессии методом смешанного оценивания. Его суть состоит в их одновременной идентификации методами наименьших модулей и антиробастного оценивания, каждый из которых «работает» на своей подвыборке данных исходной выборки. Этот способ сводится к решению задачи линейно-булевого программирования. Решен численный пример.