ИНВАРИАНТНОЕ ОПИСАНИЕ УПРАВЛЕНИЯ В ЗАДАЧЕ О ГАУССОВСКОМ ОДНОРУКОМ БАНДИТЕ (2024)
Рассматривается задача об одноруком бандите в приложении к пакетной обработке данных, если имеются два альтернативных метода обработки с разной эффективностью, причем эффективность второго метода априори неизвестна. В процессе обработки необходимо определить наиболее эффективный метод и обеспечить его преимущественное использование. Обработка выполняется пакетами, поэтому распределение доходов является гауссовским. Мы рассматриваем случай априори неизвестных математического ожидания и дисперсии одношагового дохода, соответствующих второму действию. Этот случай описывает ситуацию, когда сами пакеты и их количество имеют умеренные или небольшие объемы. Получены рекуррентные уравнения для вычисления байесовского риска и функции потерь, которые затем представлены в инвариантном виде с горизонтом управления, равным единице. Это позволяет получить оценки байесовского и минимаксного рисков, которые справедливы для всех горизонтов управления, кратных количеству обработанных пакетов.
Идентификаторы и классификаторы
- eLIBRARY ID
- 67205356
Задача об одноруком бандите впервые была рассмотрена в [11, 12] в байесовской постановке для бернуллиевского двурукого бандита, доходы которого принимают значения 0 и 1. В [11] был описан рекурсивный алгоритм для нахождения байесовской стратегии и байесовского риска. Асимптотические свойства были установлены в [12]. В [11] было доказано следующее интуитивно понятное свойство байесовской стратегии: поскольку применение первого действия не дает дополнительной информации, то, будучи выбранным, оно будет применяться до конца управления. Это свойство справедливо и в случае гауссовского однорукого бандита (см. [7, 10, 13]). Оно остается верным и в постановке, рассмотренной в разделе 1. Доказательство аналогично приведенному в [7, 10, 13] и поэтому опускается. Укажем, в чем отличие рассматриваемого подхода от подхода, представленного в [7, 10]. В [7, 10] рассматривается случай априорно известной дисперсии, что имеет место, если объем данных велик. Тогда дисперсия может быть оценена при обработке первой партии. Поскольку при малом изменении дисперсии сожаление меняется незначительно, полученную оценку можно использовать для управления. Но если количество данных умеренное или небольшое, то оценку дисперсии следует проводить в процессе контроля. В остальном статья выглядит следующим образом. В разделе 1 получены рекурсивные уравнения для нахождения байесовских стратегий, рисков и сожалений в обычной и инвариантной формах.
Список литературы
- Berry D.A., Fristedt B. Bandit Problems: Sequential Allocation of Experiments. London, New York, Chapman and Hall, 1985.
- Presman E.L., Sonin I.M. Sequential Control with Incomplete Information. New York, Academic Press, 1990.
- Tsetlin M.L. Automaton Theory and Modeling of Biological Systems. New York, Academic Press, 1973.
- Sragovich V.G. Mathematical Theory of Adaptive Control. Singapore, World Scientific, 2006.
- Gittins J.C. Multi-Armed Bandit Allocation Indices. Chichester, John Wiley and Sons, 1989.
- Lattimore T., Szepesvari C. Bandit Algorithms. Cambridge, Cambridge University Press, 2020.
- Kolnogorov A.V. One-Armed Bandit Problem for Parallel Data Processing Systems. Problems of Information Transmission, 2015, vol. 51, no. 2, pp. 177-191. DOI: 10.1134/S0032946015020088 EDN: VAEVIF
- Perchet V., Rigollet P., Chassang S., Snowberg E. Batched Bandit Problems. The Annals of Statistics, 2016, vol. 44, no. 2, pp. 660-681. DOI: 10.1214/15-AOS1381
- Vogel W. An Asymptotic Minimax Theorem for the Two-Armed Bandit Problem. The Annals of Mathematical Statistics, 1960, vol. 31, no. 2, pp. 444-451.
-
Kolnogorov A. Gaussian One-Armed Bandit Problem. 2021 XVII International Symposium ''Problems of Redundancy in Information and Control Systems''. Moscow, Institute of Electrical and Electronics Engineers, 2021, pp. 74-79. DOI: 10.1109/REDUNDANCY52534.2021.9606464 EDN: AWORZL
-
Bradt R.N., Johnson S.M., Karlin S. On Sequential Designs for Maximizing the Sum of Observations. The Annals of Mathematical Statistics, 1956, vol. 27, pp. 1060-1074. DOI: 10.1214/aoms/1177728073
-
Chernoff H., Ray S.N. A Bayes Sequential Sampling Inspection Plan. The Annals of Mathematical Statistics, 1965, vol. 36, pp. 1387-1407. DOI: 10.1214/aoms/1177699898
-
Kolnogorov A.V. Gaussian One-Armed Bandit with Both Unknown Parameters. Siberian Electronic Mathematical Reports, 2022, vol. 19, no. 2, pp. 639-650. Available at: http://semr.math.nsc.ru/v19n2ru.html. EDN: VQVJTR
Выпуск
Другие статьи выпуска
Негативное воздействие вибраций на различные устройства и механизмы может быть значительным, поэтому важно учитывать этот фактор при проектировании, эксплуатации и техническом обслуживании различного оборудования и инженерных систем. Для защиты от негативного воздействия вибраций могут использоваться различные методы и технологии. Часто используются специальные демпфирующие материалы. Данная исследовательская работа посвящена анализу эффективности снижения вибрации с учетом физических параметров эластомерных материалов. Для проведения исследования построена математическая модель, описывающая движение балки, опирающейся на эластомерное основание. Модель основана на системе нелинейных дифференциальных уравнений. В ходе работы был разработан и применен алгоритм численного решения этой системы уравнений. Были проведены численные эксперименты для изучения реакции системы на различные случаи ускорений. В результате были получены величины прогиба для материалов с различными физическими характеристиками. Эти результаты могут послужить отправной точкой для более глубокого изучения материалов и создания более сложных конструкций.
Впервые изучены детерминированная и стохастическая системы Вентцеля уравнений Дзекцера в полусфере и на его границе. В детерминированном случае установлена однозначная разрешимость начальной задачи для системы Вентцеля в специфическом построенном гильбертовом пространстве. В случае стохастической гидродинамической системы пласт - скважина - коллектор используется теория производной Нельсона - Гликлиха и строится стохастическое решение, которое позволяет определять прогнозы количественного изменения геохимического режима грунтовых вод при безнапорной фильтрации. Отметим, что для изучаемой системы фильтрации рассматривалось неклассическое условие Вентцеля, поскольку оно представлено уравнением с оператором Лапласа - Бельтрами, заданным на границе области, понимаемой как гладкое компактное риманово многообразие без края, причем внешнее воздействие представлено нормальной производной функции, заданной в области.
Рассматривается известная задача распознавания ячеек таблиц на изображении. Исследуется обработка налогового российского документа 2-НДФЛ. Несмотря на простую структуру таблиц, способ печати основан на гибком шаблоне. Гибкость формы наблюдается как в части модификаций текстовой информации, так и в области таблиц. Гибкость таблиц состоит в изменении числа и размеров столбцов. Для детектирования таблиц был предложен структурный метод. Входными данными метода являются детектированные горизонтальные и вертикальные отрезки. Поиск отрезков проводился механизмами, реализованными в системе Smart Document Reader. Апробация и внедрение предложенного метода также осуществлялось в системе Smart Document Reader. Кроме детектирования области предполагаемого размещения таблиц решены следующие задачи: поиск ячеек таблиц, именование ячеек таблиц, валидация области таблицы. Валидация области таблицы проводилась для отдельных таблиц, а также для совокупностей таблиц. Применение описаний совокупностей таблиц обеспечило высокую надежность привязки набора таблиц.
В методах сопряженных градиентов формула сопряжения часто является основной точкой концентрации. Техника сопряженных градиентов используется для решения проблем, возникающих в процессе восстановления изображения. Используя квадратичную модель, для операции будет получено совершенно новое сопряжение коэффициентов. Алгоритмы демонстрируют как локальную, так и глобальную сходимость и спуск. Численное тестирование показало, что недавно разработанный метод намного превосходит тот, который существовал до него. Недавно созданная стратегия сопряженного градиента имеет более высокую производительность, чем метод сопряженного градиента FR, который является отраслевым стандартом.
Статья посвящена изучению морфологии фазового пространства математической модели деформации двутавровой балки, которое лежит на гладких банаховых многообразиях с особенностями (k-сборка Уитни) в зависимости от параметров задачи. Математическая модель изучена в случае, когда оператор при производной по времени является вырожденным. Исследование вопроса неединственности решения задачи Шоуолтера - Сидорова для модели Хоффа в двумерной области проведено на основе метода фазового пространства, который был разработан Г.А. Свиридюком. Найдены условия неединственности решения в случае, когда размерность ядра оператора при производной по времени равна 1 или 2. Представлены два подхода для выявления количества решений задачи Шоуолтера - Сидорова в случае, размерности ядра оператора при производной по времени равного 2. Приведены примеры, иллюстрирующие неединственность решения исследуемой задачи на прямоугольнике.
Рассматривается актуальная проблема получения приближенных численных решений обратных задач в виде интегральных уравнений Фредгольма первого рода для систем радио- и гидролокации и дистанционного зондирования. Полученные решения дают возможность существенно повысить точность измерений, а также довести угловую разрешающую способность до значений, превышающих критерий Рэлея. Это позволяет: получать детализированные радиоизображения различных объектов и зондируемых областей; определять количество отдельных малоразмерных объектов в составе сложных целей, которые раздельно не фиксировались без представляемой обработки сигналов; получать координаты таких малоразмерных объектов с высокой точностью; повысить вероятности получения правильных решений задач распознавания и идентификации объектов. Метод применим для современных многоэлементных измерительных систем. Он основан на экстраполяции сигналов, принимаемых всеми элементами, за пределы самой системы. Решена задача создания необходимой для этого нейронной сети и ее обучения. В итоге, синтезируется новая виртуальная измерительная система значительно большего размера, что позволяет резко повысить угловое разрешение и тем самым повысить качество приближенных решений рассматриваемых обратных задач. На примерах демонстрируется эффективность метода, оценивается адекватность и устойчивость получаемых решений. Исследуется степень превышения виртуальной угломерной системой критерия Рэлея в зависимости от отношения сигнал/шум.
В данной работе исследуется устойчивость решений стохастического уравнения Осколкова, описывающего плоскопараллельное течение вязкоупругой жидкости. Это уравнение мы рассматриваем в виде стохастического полулинейного уравнения соболевского типа. Во-первых, мы рассмотрим разрешимость стохастического уравнения Осколкова методом стохастического фазового пространства. Во-вторых, мы рассмотрим устойчивость решений этого уравнения. Доказаны необходимые условия существования устойчивых и неустойчивых инвариантных многообразий стохастического уравнения Осколкова. При решении задачи стабилизации это уравнение рассматривается как редуцированная стохастическая система уравнений. Задача стабилизации решается на основе принципа обратной связи; показаны графики решения до стабилизации и после стабилизации.
Развитие водородной энергетики неразрывно связано с обеспечением водородной безопасности и исследованием процессов, протекающих при горении водород-содержащих смесей. Использование численного моделирования позволяет исследовать поведение системы в диапазонах изменения основных параметров, не покрытых экспериментальными данными. В данной работе представлена модель, позволяющая моделировать течения химически реагирующих сплошных сред, верифицированная на экспериментальных данных по распространению пламени в ударной трубе с перегородками, заполненной водород-воздушной смесью.
Издательство
- Издательство
- ЮУрГУ
- Регион
- Россия, Челябинск
- Почтовый адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- Юр. адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- ФИО
- Александр Рудольфович Вагнер (Ректор)
- E-mail адрес
- admin@susu.ru
- Контактный телефон
- +7 (351) 2635882
- Сайт
- https://www.susu.ru