В работе дан краткий обзор публикаций по кластеризации данных с помощью методов регрессионного анализа. Приведено краткое описание известного способа разбиения выборки данных на подвыборки на основе разделяющих регрессий, сводящегося к задаче минимизации сумм ошибок аппроксимации на всех этих подвыборках. Кроме того, рассмотрен способ решения задачи кластеризации с помощью обобщенного критерия согласованности поведения и его непрерывной формы. Решен численный иллюстративный пример.
Идентификаторы и классификаторы
При обработке различных типов данных (пространственных данных (cross section data), временных рядов (time series), панельных данных (panel data)) средствами регрессионного анализа часто возникает необходимость в их кластеризации, состоящей в разбиении исходной выборки данных на непересекающиеся подвыборки, называемые кластерами.
Так в работе [1] оцениваются важность учета уровня кластеризованности данных. При этом подчеркивается, что при построении линейной модели с применением метода наименьших квадратов отклонение от действительного значения зависимой переменной меняется при увеличении этого уровня. В [2] рассматриваются три подхода к построению моделей линейной регрессии с кластеризованными данными. Первые два подхода основаны на применении многоуровневых моделей со “случайным интерцептом”, вторая модель отличается от первой учетом средних значений по каждому кластеру. Третья модель основана на оценивание попарных разниц между двумя случайными элементами в кластере.
Список литературы
1. Ntani, G., Inskip, H., Osmond, C. et al. Consequences of ignoring clustering in linear regression // BMC Med Res Methodol. - 2021. - No. 21. - P. 1-13. EDN: BJXQWR
2. Desai M, Begg MD. A comparison of regression approaches for analyzing clustered data // Am J Public Health. - 2008. - V. 98. - No. 8. - P. 1425-1429.
3. Bertan Ari, H.Altay Güvenir. Clustered linear regression // Knowledge-Based Systems. - 2002. - V. 15. - No. 3. - P. 169-175.
4. N. Yamaguchi, J. Han, G. Ghatikar, S. Kiliccote, M. A. Piette and H. Asano. Regression models for demand reduction based on cluster analysis of load profiles // 2009 IEEE PES/IAS Conference on Sustainable Alternative Energy (SAE). - 2009. - P. 1-7.
5. Motoyoshi, Masahiro & Miura, Takao & Shioya, Isamu. Clustering Stream Data by Regression Analysis / Australasian Workshop on Data Mining and Web Intelligence. - 2004. - V. 32. - P. 115-120.
6. Bouwmeester, W., Twisk, J.W., Kappen, T.H. et al. Prediction models for clustered data: comparison of a random intercept and standard regression model // BMC Med Res Methodol. -2013. - No. 13. - P. 1-10. EDN: MWNHXO
7. Ting Li, Xinyuan Song, Yingying Zhang, Hongtu Zhu, Zhongyi Zhu. Clusterwise functional linear regression models // Computational Statistics & Data Analysis. - 2021. - Vol. 158. - P. 1-15.
8. Qiang Long, Adil Bagirov, Sona Taheri, Nargiz Sultanova, and Xue Wu. Methods and Applications of Clusterwise Linear Regression: A Survey and Comparison // ACM Trans. Knowl. Discov. Data. - 2023. - V. 17. - No. 3. - P. 1-54.
9. Jain A., Murty M., Flynn P. Data Clustering: A Review. // ACM Computing Surveys. - 1999. - V. 31. - no. 3. - P. 264-323.
10. Мандель И.Д. Кластерный анализ. - М: Финансы и статистика, 1988. - 176 с.
Mandel I.D. Cluster analysis. - Moscow: Finance and statistics, 1988. - 176 p.
11. Таскин А.С., Миркес Е.М. Линейная регрессия с кластеризацией по признаку на данных с действительными величинами // Сибирский аэрокосмический журнал. - 2012. -№3 (43). - С. 71-76. EDN: PCTYLN
Taskin A.S., Mirkes E.M. Linear regression with clustering by the feature of data with real values // Siberian aerospace journal. - 2012. - No. 3 (43). - P. 71-76. EDN: PCTYLN
12. Марков Л.С. Теоретико-методологические основы кластерного подхода. - Новосибирск: ИЭОПП СО РАН, 2015. - 300 с. EDN: VDQSIX
Markov L.S. Theoretical and methodological foundations of the cluster cluster. - Novosibirsk: IEIE SB RAS, 2015. - 300 p.
13. Неслухов Д.С. Использование кластерного и регрессионного анализа в изучении экономической деятельности судостроительных и судоремонтных предприятий // Интернет-журнал “НАУКОВЕДЕНИЕ”. - 2016. - Т. 8. - №4. - С. 1-11. EDN: WRLBQR
Neslukhov D.S. Use of cluster and regression analysis in the study of economic activities of shipbuilding and ship repair enterprises // Internet journal "NAUKOVEDENIE". - 2016. - V. 8. - No. 4. - P. 1-11.
14. Ерофеев А.А. Регрессионное моделирование на кластерах как средство исследования региональной специфики закономерностей информатизации общества // Экономические науки. - 2010. - № 12 (73). - С. 357-367.
Erofeev A. A. Regression modeling on clusters as a study of regional specifics of patterns of informatization of society // Economic sciences. - 2010. - No. 12 (73). - P. 357-367.
15. Носков С.И. О кластеризации данных на основе свойств методов идентификации параметров линейной регрессии // Информационные технологии и математическое моделирование в управлении сложными системами. - 2022. - № 4 (16). - С. 82-85. EDN: VJHTVF
Noskov S. I. On data clustering based on methods for determining linear regression parameters // Information technologies and mathematical modeling in management work consistently. - 2022. - No. 4 (16). - P. 82-85.
16. Носков С. И., Ильюшонок Д. М. Подход к кластеризации выборки данных на основе метода наименьших модулей // Южно-Сибирский научный вестник. - 2020. - № 6. - С. 255-259. EDN: UMIIPW
Noskov S. I., Ilyushonok D. M. An approach to clustering a data sample based on the least absolute values method // South Siberian Scientific Bulletin. - 2020. - No. 6. - P. 255-259. EDN: UMIIPW
17. Носков С.И. Применение метода антиробастного оценивания параметров для кластеризации выборки данных // Вестник кибернетики. - 2021. - № 3 (43). - С. 46-50. EDN: JVLKRB
Noskov S.I. Application of the method of antirobust parameter measurement for clustering a data sample // Bulletin of Cybernetics. - 2021. - No. 3 (43). - P. 46-50. EDN: JVLKRB
18. Носков С.И., Протопопов В.А. Оценка уровня уязвимости объектов транспортной инфраструктуры: формализованный подход // Современные технологии. Системный анализ. Моделирование. - 2011. - №4 (32). - С. 241-244. EDN: OPMAXZ
Noskov S.I., Protopopov V.A. Vulnerability assessment of transport employment facilities: a formalized approach // Modern technologies. Systems analysis. Modeling. - 2011. - No. 4 (32). - P. 241-244. EDN: OPMAXZ
19. Демиденко Е.З. Линейная и нелинейная регрессии. - М.: Финансы и статистика, 1981. - 302 с.
Demidenko E.Z. Linear and nonlinear regression. - M.: Finance and Statistics, 1981. - 302 p.
20. Носков С.И. Обобщенный критерий согласованности поведения в регрессионном анализе // Информационные технологии и математическое моделирование в управлении сложными системами. - 2018. - № 1 (1). - С. 14-20. EDN: YXRWEX
Noskov S.I. Generalized criterion for behavior consistency in regression analysis // Information technology and mathematical modeling in sequential management. - 2018. - No. 1 (1). - P. 14-20.
21. Носков С.И. Применение непрерывного критерия согласованности поведения при построении регрессионных моделей // Известия Тульского государственного университета. Технические науки. - 2021. - № 6. - С. 74-78. EDN: USYZJP
Noskov S.I. Application of a continuous behavior consistency criterion in the construction of regression models // Bulletin of Tula State University. Technical sciences. - 2021. - No. 6. - P. 74-78. EDN: USYZJP
22. Носков С.И. Идентификация параметров кусочно-линейной функции риска // Транспортная инфраструктура Сибирского региона. - 2017. - Т. 1. - С. 417-421. EDN: YSYSAZ
Noskov S.I. Identification of parameters of a piecewise linear risk function // Transport infrastructure of the Siberian region. - 2017. - Vol. 1. - P. 417-421. EDN: YSYSAZ
23. Носков С.И. Идентификация параметров комбинированной кусочно-линейной регрессионной модели // Вестник Югорского государственного университета. - 2022. - № 4 (67). - С. 115-119. EDN: CQOTJT
Noskov S.I. Identification of parameters of a combined piecewise linear regression model // Bulletin of Yugra State University. - 2022. - No. 4 (67). - P. 115-119. EDN: CQOTJT
24. Носков С.И. Точечная характеризация множеств решений интервальных систем линейных алгебраических уравнений // Информационные технологии и математическое моделирование в управлении сложными системами. - 2018. - № 1 (1). - С. 8-13. EDN: YXRWEP
Noskov S.I. Point characterization of multiple solutions of interval systems of linear algebraic methods // Information technologies and mathematical modeling in the control of mechanisms sequentially. - 2018. - No. 1 (1). - P. 8-13.
25. Kreinovich V., Lakeyev A.V., Noskov S.I. Approximate linear algebra is intractable // Linear Algebra and its Applications. - 1996. - Vol. 232. - № 1-3. - P. 45-54. EDN: LDYKLZ
Kreynovich V., Lakeev A.V., Noskov S.I. Approximate linear algebra is intractable // Linear algebra and its applications. - 1996. - V. 232. - No. 1-3. - P. 45-54. EDN: LDYKLZ
Выпуск
Другие статьи выпуска
В работе рассмотрены три формы кластерной регрессии: кластерная кусочно-линейная регрессионная функция Леонтьева, кластерная кусочно-линейная регрессионная функция риска, кластерная смешанная кусочно-линейная регрессия. Указано, что при определенных условиях задачи их построения могут быть сведены к задачам линейно-булева программирования.
В связи с ежегодным увеличением объема перевозок в Улан-Баторской железной дороге (УБЖД) существенно повышается актуальность проблемы обеспечения безопасности работ устройств сигнализации, централизации и блокировки (СЦБ). Для повышения безопасности важно разработать и внедрить информационную систему диагностики оборудования. Необходимо автоматизировать такие задачи, которые измеряются каждый квартал или полгода с участием человека. К ним относятся: контроль напряжения рельсовых цепей, изоляции кабелей, напряжения электропитания и контроль и управление светофорами. В работе проанализирован опыт внедрения и эксплуатации системы мониторинга «ZTH Net Work» в Улан-Баторской железной дороге. Предложено решение по разработке веб-приложения для осуществления автоматизированного контроля и мониторинга устройств сигнализации, централизации и блокировки. Построение диагностической карты на основе непрерывного сбора поступающих данных с датчиков и последующей их обработке на основе применения современных информационных технологий улучшит диагностику состояний технических устройств и повысит безопасность движения поездов. Предложен усовершенствованный алгоритм проведения мониторинга и диагностики технических состояний рельсовых цепей. Разработана и внедрена система «ZTH», предназначенная для диагностирования состояний рельсовых цепей (РЦ) и мониторинга состояний устройств СЦБ в Улан-Баторской железной дороге. Результатом функционирования информационной системы является диагностическая карта, на основе которой определяется перечень работ обслуживающего персонал.
В статье рассматривается концепция нулевого доверия как современная модель обеспечения безопасности государственных информационных систем. Рассматриваются принципы и состав данного подхода к обеспечению защиты информации, а также преимущества применения принципа нулевого доверия в современные условия. Приводятся статистика данных о текущих угрозах, направленных на государственный сектор. Делается вывод о необходимости перехода на архитектуру нулевого доверия для повышения устойчивости функционирования государственных информационных систем.
Настоящая статья посвящена исследованию превентивной защиты корпоративных информационных системс с использованием методов киберразведки. Рассматриваются основные цели, задачи и инструментарий киберразведки. Учитывая актуальность развития данного направления, автором предложен механизм создания подразделения киберразведки, а также приведены аргументы необходимости применения данного подхода для обеспечения защиты информации. Современный ландшафт киберугроз постоянно меняется, потенциальными злоумышленниками совершенствуются тактики и техники реализации угроз, в связи с этим вероятность риска нанесения ущерба информационным активам организаций остается достаточно высокой. Все эти факты ведут к поиску новых решений в обеспечении требуемого уровня информационной безопасности, одним из которых и является инструментарий киберразведки.
В статье исследуются возможности использования технологий виртуальной реальности и дополненной реальности в управлении жилищно-коммунальным хозяйством. Рассматриваются преимущества и вызовы интеграции этих технологий в систему управления ЖКХ, а также примеры успешного внедрения. Статья направлена на формирование рекомендаций по внедрению технологий виртуальной реальности и дополненной реальности в сфере жилищно-коммунального хозяйства.
Издательство
- Издательство
- ИРГУПС
- Регион
- Россия, Иркутск
- Почтовый адрес
- 664074, Иркутская обл, г Иркутск, Свердловский р-н, ул Чернышевского, д 15
- Юр. адрес
- 664074, Иркутская обл, г Иркутск, Свердловский р-н, ул Чернышевского, д 15
- ФИО
- Трофимов Юрий Анатольевич (РЕКТОР)
- E-mail адрес
- trofimov_y@irgups.ru
- Контактный телефон
- +7 (395) 2638301