В работе сформулирована задача определения неизвестных параметров линейной регрессионной модели для случая, когда исходная информация (выборка данных) для предикторных переменных задана традиционно, точечно, а для зависимой переменной - интервально. При этом предполагается, что любая информация, в частности, вероятностного характера, уточняющая «истинное» расположение значений переменной внутри или на границах указанных интервалов, отсутствуют. В общем случае для подобной ситуации множество оценок параметров модели описывается системой линейных неравенств. При ее совместности решением задачи предлагается считать вектор оценок параметров, обеспечивающий максимальную разрешающую способность системы, этот прием часто используется в теории векторной оптимизации. При несовместности системы неравенств поставлена задача поиска квазирешения двухкритериальной задачи линейного программирования, в которой первая компонента соответствует функции потерь для метода наименьших модулей, а вторая - для метода антиробастного оценивания параметров. Эти методы ведут себя по-разному по отношению к выбросам в данных - первый их игнорирует, второй же, напротив, сильно к ним тяготеет. Задачу предлагается решать в три этапа. Вначале путем решения серии задач линейного программирования формируется множество паретовских вершин симплекса, являющегося областью совместности системы линейных неравенств. Затем строится множество Парето как объединение ребер, соединяющих соседние вершины. После этого из всего этого множества выделяется один его представитель (или так называемое компромиссное решение), отражающий конфигурацию этого множества. Решен простой численный пример. Проведено сравнение полученного решения с тем, которое соответствует методу наименьших модулей для осредненных данных.
РЕГРЕССИОННАЯ МОДЕЛЬ, ОДНОРОДНАЯ ВЛОЖЕННАЯ КУСОЧНО-ЛИНЕЙНАЯ РЕГРЕССИЯ ВТОРОГО ТИПА, ОЦЕНИВАНИЕ ПАРАМЕТРОВ, МЕТОД НАИМЕНЬШИХ МОДУЛЕЙ, ЗАДАЧА ЛИНЕЙНО-БУЛЕВА ПРОГРАММИРОВАНИЯ
Качество регрессионной модели в значительной степени определяется опытом специалистов, выполняющих сбор и исследование данных, в частности: надежными результатами наблюдений, наиболее близко определенными формами связей между переменными и верно подобранными методами оценки регрессии. Однако даже при наличии этих составляющих нельзя гарантировать оптимальный характер итоговой математической зависимости, потому как объем необходимых расчетов и проверок для поиска решения задачи оптимизации выходного уравнения часто оказывается существенно больше, чем можно выполнить вручную. В статье рассмотрены некоторые этапы подхода к процессу математического моделирования объекта методами регрессионного анализа данных, выделены проблемные места. В качестве варианта решения предлагается реализация алгоритмического программного комплекса, специализированного под описанный процесс моделирования. Проведен краткий обзор аналогов. Выводы сопровождаются графическим представлением функциональных требований к целевой программной реализации. Проектирование выполнено на концептуальном уровне.
В работе рассмотрены три формы кластерной регрессии: кластерная кусочно-линейная регрессионная функция Леонтьева, кластерная кусочно-линейная регрессионная функция риска, кластерная смешанная кусочно-линейная регрессия. Указано, что при определенных условиях задачи их построения могут быть сведены к задачам линейно-булева программирования.
В работе дан краткий обзор публикаций по кластеризации данных с помощью методов регрессионного анализа. Приведено краткое описание известного способа разбиения выборки данных на подвыборки на основе разделяющих регрессий, сводящегося к задаче минимизации сумм ошибок аппроксимации на всех этих подвыборках. Кроме того, рассмотрен способ решения задачи кластеризации с помощью обобщенного критерия согласованности поведения и его непрерывной формы. Решен численный иллюстративный пример.
В работе исследовано важное свойство метода наименьших модулей (англ. least absolute deviation, LAD) при разработке линейной регрессионной зависимости, в соответствии с которым число нулевых ошибок аппроксимации равно числу оцениваемых параметров модели. Предложен алгоритмический способ наделения этим свойством других методов оценивания параметров путем ввода в рассмотрение булевых переменных и формирования некоторых ограничений на ошибки при оптимизации соответствующих функций потерь. Реализация разработанной вычислительной схемы продемонстрирована на формировании задачи линейно-булева программирования для метода антиробастного оценивания параметров. Рассмотрен численный пример, связанный с построением модели добычи газа на опытно-промышленной установке УПГ-102 Ковыктинского газоконденсатного месторождения . В качестве независимых переменных при этом задействованы: приход водометанольного раствора, рабочее давление сепараторов С101 и С102б.
В работе описан алгоритмический способ определения численных оценок параметров простой формы вложенной кусочно-линейной регрессии методом смешанного оценивания. Его суть состоит в их одновременной идентификации методами наименьших модулей и антиробастного оценивания, каждый из которых «работает» на своей подвыборке данных исходной выборки. Этот способ сводится к решению задачи линейно-булевого программирования. Решен численный пример.