АНАЛИЗ ИСПОЛНЕНИЯ ФРАГМЕНТИРОВАННЫХ ПРОГРАММ НА ОСНОВЕ ФАКТОРОВ SLOW (2024)
При исполнении параллельных программ, основанных на парадигме параллелизма задач, требуется решать ряд проблем, таких как выбор порядка запуска задач с учетом зависимостей между ними, распределение данных и задач по параллельным процессам, балансировка нагрузки на ресурсы. Эти проблемы относятся к области системного параллельного программирования, и их решение, как правило, обеспечивается специальной исполнительной системой. От качества решения этих проблем, а также от структуры и свойств прикладного алгоритма, лежащего в основе параллельной программы, зависит получаемая производительность. Если производительность программы недостаточна, то требуется ее оптимизация, а для этого нужно знать те причины («узкие места»), которые ограничивают ее производительность. Для определения узких мест программы обычно применяется профилирование, т.е. сбор некоторых характеристик исполнения, которые могут указать на источник проблемы. Однако обычные широко используемые средства профилирования параллельных программ не позволяют дать ответ в требуемых понятиях из-за сложности анализа асинхронного исполнения множества задач, а также из-за неспособности выделить в исполняющейся программе прикладную (множество задач) и системную (исполнительная система) компоненты. Поэтому для таких программ требуется разработка новых методов профилирования и анализа. В статье рассматривается проблема получения «понятных» характеристик выполнения параллельных программ на основе параллелизма задач для анализа производительности и оптимизации. Предлагается количественно оценить степень влияния следующих факторов: нехватка работы (Starvation), передача данных (Latency), накладные расходы (Overhead) и конфликт при доступе к общим ресурсам (Waiting for contention resolution). Представлен алгоритм получения соответствующих характеристик для системы фрагментированного программирования LuNA, а также способ их анализа для оптимизации LuNA-программ. Корректность подхода продемонстрирована на ряде синтетических экспериментов. Показано применение подхода к анализу «реальной» программы численного моделирования.
Идентификаторы и классификаторы
- eLIBRARY ID
- 67910941
Решение больших численных задач требует использования суперкомпьютеров, а значит, создания эффективных параллельных программ. Существует множество подходов к разработке параллельных программ. Одной из актуальных и часто используемых парадигм, использующихся в параллельном программировании, является параллелизм задач [1]. Эта парадигма предполагает, что параллельная программа описывается как множество задач, которые могут выполняться независимо. Кроме того, предполагается, что задачи в рамках одной программы связаны зависимостями по данным и управлению, что ограничивает возможности по их одновременному выполнению.
Использование параллелизма задач позволяет достигать высокой эффективности исполнения программ на параллельных вычислительных системах за счет того, что несколько задач могут одновременно выполняться на разных вычислительных устройствах, а обмен данными между вычислительными элементами может происходить на фоне счета. Кроме того, явное выделение независимых частей прикладного алгоритма и явное описание связей между ними позволяет автоматизировать системные функции управления параллельным исполнением задач и реализовать их в виде специальной исполнительной системы. Возможность такой автоматизации особенно важна в случае программирования в модели с распределенной или неоднородной памятью, где к проблеме управления вычислениями добавляется проблема управлением данными. Разделение описания программы на прикладную и системную часть очень удобно, оно позволяет снизить требования к прикладным пользователям суперкомпьютеров и лежит в основе многих средств повышения уровня параллельного программирования.
Список литературы
- Thoman P., Dichev K., Heller T., et al. A taxonomy of task-based parallel programming technologies for high-performance computing // The Journal of Supercomputing. 2018. Vol. 74. P. 1422-1434. DOI: 10.1007/s11227-018-2238-4 EDN: ELIITR
- Kaiser H., Heller T., Adelstein-Lelbach B., et al. HPX: A Task Based Programming Model in a Global Address Space // 8th International Conference on PGAS Programming Models, PGAS’2014, Eugene OR, USA, October 6-10, 2014. Proceedings. Article 6. ACM, 2014. P. 1-11. DOI: 10.1145/2676870.2676883
- Malyshkin V.E., Perepelkin V.A. LuNA Fragmented Programming System, Main Functions and Peculiarities of Run-Time Subsystem // 11th International Conference on Parallel Computing Technologies, PaCT-2011, Kazan, Russia, September 19-23, 2011. Proceedings. Vol. 6873 / ed. by V. Malyshkin. Springer, 2011. P. 53-61. Lecture Notes in Computer Science. DOI: 10.1007/978-3-642-23178-0_5
- Shende S., Malony A.D. The TAU Parallel Performance System // International Journal of High Performance Computing Applications. 2006. Vol. 20, no. 2. P. 287-311. DOI: 10.1177/1094342006064482 EDN: KJXVKT
- Lorenz D., Feld C. Scaling Score-P to the next level // Procedia Computer Science. 2017. Vol. 108. P. 2180-2189. DOI: 10.1016/j.procs.2017.05.107
- Extrae instrumentation package. URL: https://tools.bsc.es/extrae (дата обращения: 23.04.2024).
- Vampir 10.4. URL: https://vampir.eu/ (дата обращения: 23.04.2024).
- Zhukov I., Feld C., Geimer M., et al. Scalasca v2: Back to the Future // 8th International Workshop on Parallel Tools for High Performance Computing, HLRS, Stuttgart, Germany, October, 2014. Proceedings. Ed. by C. Niethammer, J. Gracia, A. Knu¨pfer, et al. Springer, 2015. P. 1-24. DOI: 10.1007/978-3-319-16012-2_1
- Mantovani F., Calore E. Multi-Node Advanced Performance and Power Analysis with Paraver // Advances in Parallel Computing. Vol. 32. IOS Press, 2018. P. 723-732. DOI: 10.3233/978-1-61499-843-3-723 EDN: YHODET
-
Intel Trace Analyzer and Collector. URL: https://www.intel.com/content/www/us/en/developer/tools/oneapi/trace-analyzer.html (дата обращения: 23.04.2024).
-
Huynh A., Thain D., Peric'as M., Taura K. DAGViz: a DAG visualization tool for analyzing task-parallel program traces // 2nd WS on Visual Performance Analysis, VPA '15, November, 2015. Proceedings. No. 3. ACM, 2015. P. 1-8. DOI: 10.1145/2835238.2835241
-
Huynh A., Taura K. Delay Spotter: A Tool for Spotting Scheduler-Caused Delays in Task Parallel Runtime Systems // 2017 IEEE International Conference on Cluster Computing, CLUSTER, Honolulu, HI, USA, September 5-8, 2017. IEEE, 2017. P. 114-125. DOI: 10.1109/CLUSTER.2017.82
-
Ceballos G., Grass T., Hugo A., Black-Schaffer D. Analyzing performance variation of task schedulers with TaskInsight // Parallel Computing. 2018. Vol. 75. P. 11-27. DOI: 10.1016/j.parco.2018.02.003
-
Pinto V.G. Performance Analysis Strategies for Task-based Applications on Hybrid Platforms: PhD thesis / Vin'ıcius Garcia Pinto. Universidade Federal do Rio Grande do Sul UFRGS, Brazil, UGA Universit'e Grenoble Alpes, France, 2018. URL: https://theses.hal.science/tel-01962333.
-
Pinto V.G., Nesi L.L., Miletto M.C., Schnorr L.M. Providing In-depth Performance Analysis for Heterogeneous Task-based Applications with StarVZ // 2021 IEEE International Parallel and Distributed Processing Symposium Workshops, IPDPSW, Portland, OR, USA, June 17-21, 2021. IEEE, 2021. P. 16-25. DOI: 10.1109/IPDPSW52791.2021.00013
-
Малышкин В.Э. Технология фрагментированного программирования // Вестник ЮУрГУ. Серия: Вычислительная математика и информатика. 2012. № 46(305), Вып. 1. С. 45-55. DOI: 10.14529/cmse120104 EDN: PXPCUT
-
Bosilca G., Bouteiller A., Danalis A., et al. PaRSEC: Exploiting Heterogeneity to Enhance Scalability // Computing in Science & Engineering. 2013. Vol. 15, no. 6. P. 36-45. DOI: 10.1109/MCSE.2013.98
-
Dokulil J., Benkner S. The OCR-Vx experience: lessons learned from designing and implementing a task-based runtime system // The Journal of Supercomputing. 2022. Vol. 78. P. 12344-12379. DOI: 10.1007/s11227-022-04355-0 EDN: EWLGOO
-
Bauer M., Treichler S., Slaughter E., Aiken A. Legion: Expressing locality and independence with logical regions // International Conference on High Performance Computing, Networking, Storage and Analysis, SC'12, Salt Lake City, UT, USA, November 10-16, 2012. Proceedings. IEEE, 2012. P. 1-11. DOI: 10.1109/SC.2012.71
-
Akhmed-Zaki D., Lebedev D., Perepelkin V. Implementation of a three dimensional three-phase fluid flow ("oil-water-gas") numerical model in LuNA fragmented programming system // The Journal of Supercomputing. 2017. Vol. 73. P. 624-630. DOI: 10.1007/s11227-016-1780-1 EDN: YUUDVV
-
Daribayev B., Perepelkin V., Lebedev D., Akhmed-Zaki D. Implementation of the Two-Dimensional Elliptic Equation Model in LuNA Fragmented Programming System // IEEE 12th International Conference on Application of Information and Communication Technologies, AICT 2018, Almaty, Kazakhstan, October 17-19, 2018. Proceedings. IEEE, 2018. P. 161-164. DOI: 10.1109/ICAICT.2018.8747145 EDN: CKCUAY
-
Akhmed-Zaki D., Lebedev D., Perepelkin V. Implementation of a 3D model heat equation using fragmented programming technology // The Journal of Supercomputing. 2019. Vol. 75, no. 12. P. 7827-7832. DOI: 10.1007/s11227-018-2710-1 EDN: SIGVAQ
-
Akhmed-Zaki D., Lebedev D., Malyshkin V., Perepelkin V. Automated Construction of High Performance Distributed Programs in LuNA System // 15th International Conference on Parallel Computing Technologies, PaCT 2019, Almaty, Kazakhstan, August 19-23. Proceedings. Vol. 11657 / ed. by V. Malyshkin. Springer, 2019. P. 3-9. Lecture Notes in Computer Science. DOI: 10.1007/978-3-030-25636-4_1
-
Малышкин В.Э., Перепелкин В.А. Мультиагентный подход к повышению эффективности исполнения фрагментированных программ в системе LuNA // Проблемы информатики. 2023. № 3. С. 55-67. DOI: 10.24412/2073-0667-2023-3-55-67 EDN: LYEAKS
-
Belyaev N., Kireev S. LuNA-ICLU Compiler for Automated Generation of Iterative Fragmented Programs // 15th International Conference on Parallel Computing Technologies, PaCT 2019, Almaty, Kazakhstan, August 19-23, 2019. Proceedings. Vol. 11657 / ed. by V. Malyshkin. Springer, 2019. P. 10-17. Lecture Notes in Computer Science. DOI: 10.1007/978-3-030-25636-4_2
-
Belyaev N., Perepelkin V. High-Efficiency Specialized Support for Dense Linear Algebra Arithmetic in LuNA System // 16th International Conference on Parallel Computing Technologies, PaCT 2021, Kaliningrad, Russia, September 13-18, 2021. Proceedings. Vol. 12942 / ed. by V. Malyshkin. Springer, 2021. P. 143-150. Lecture Notes in Computer Science. DOI: 10.1007/978-3-030-86359-3_11
-
Malyshkin V., Perepelkin V. Trace-Based Optimization of Fragmented Programs Execution in LuNA System // 16th International Conference on Parallel Computing Technologies, PaCT 2021, Kaliningrad, Russia, September 13-18, 2021. Proceedings. Vol. 12942 / ed. by V. Malyshkin. Springer, 2021. P. 3-10. Lecture Notes in Computer Science. DOI: 10.1007/978-3-030-86359-3_1
-
Malyshkin V., Perepelkin V., Lyamin A. Trace Balancing Technique for Trace Playback in LuNA System // 17th International Conference on Parallel Computing Technologies, PaCT 2023, Astana, Kazakhstan, August 21-25, 2023. Proceedings. Vol. 14098 / ed. by V. Malyshkin. Springer, 2023. P. 42-50. Lecture Notes in Computer Science. DOI: 10.1007/978-3-031-41673-6_4
-
Межведомственный Суперкомпьютерный Центр Российской Академии Наук. URL: https://www.jscc.ru/ (дата обращения: 23.04.2024).
-
Kireev S. A Parallel 3D Code for Simulation of Self-gravitating Gas-Dust Systems // 10th International Conference on Parallel Computing Technologies, PaCT 2009, Novosibirsk, Russia, August 31 - September 4, 2009. Proceedings. Vol. 5698 / ed. by V. Malyshkin. Springer, 2009. P. 406-413. Lecture Notes in Computer Science. DOI: 10.1007/978-3-642-03275-2_40
Выпуск
Другие статьи выпуска
В статье предлагается новый метод распознавания строений на спутниковых снимках. Представленный метод является гибридным, он основан на алгоритме исключения областей и методе жука. Алгоритм исключения областей представляет собой хорошо известный и эффективный способ сегментации изображения на регионы схожих пикселей по различным признакам: цвет, текстура, яркость, форма и т.д. Метод жука - классический метод контурного анализа, выполняющий последовательное вычерчивание границы между объектом и фоном. В рамках работы предлагаемого алгоритма сначала метод исключения областей выделяет потенциальные области, в которых могут находиться строения и устраняет нежелательные элементы на изображении (растительность, водные поверхности и дороги), которые могут быть ложно распознаны как строения. Далее модифицированный метод жука определяет местоположение и контуры строений. На финальном этапе среди обнаруженных объектов выявляются искусственно созданные объекты, у которых имеется объем. Для реализации проверки объектов на искусственное происхождение и объемность разработаны собственные методы. Представленный алгоритм распознавания показывает хорошую точность распознавания и не требует обучающей выборки. В статье описывается программная реализация предлагаемого метода. Демонстрируются результаты вычислительных экспериментов по оцениванию эффективности метода и сравнению с тремя известными алгоритмами распознавания.
В настоящее время в широком спектре предметных областей актуальной является задача восстановления пропущенных точек или блоков значений временных рядов. В статье представлен метод SAETI (Snippet-based Autoencoder for Time-series Imputation) для восстановления пропусков в многомерных временных рядах, который основан на совместном применении нейросетевых моделей-автоэнкодеров и аналитического поиска во временном ряде поведенческих шаблонов (сниппетов). Восстановление многомерной подпоследовательности, содержащей пропуски, выполняется посредством двух следующих нейросетевых моделей. Распознаватель получает на вход подпоследовательность, в которой пропуски предварительно заменены на нули, и для каждого измерения определяет соответствующий сниппет. Реконструктор принимает на вход подпоследовательность и набор сниппетов, полученных Распознавателем, и заменяет пропуски на правдоподобные синтетические значения. Реконструктор реализован как совокупность двух следующих моделей: Энкодер, формирующий скрытое состояние для совокупности входной подпоследовательности и распознанных сниппетов; Декодер, получающий на вход скрытое состояние, который восстанавливает исходную подпоследовательность. Представлено детальное описание архитектур вышеперечисленных моделей. Результаты экспериментов над реальными временными рядами из различных предметных областей показывают, что SAETI в среднем опережает передовые аналоги по точности восстановления и показывает лучшие результаты в случае, когда восстанавливаются данные, отражающие активность некоего субъекта.
В работе предложен метод семантической сегментации облаков точек в виде рельефа местности с использованием мультимодальной архитектуры сверточной нейронной сети на основе регулярного динамического взвешенного графа, которая позволяет получать точное решение задачи семантической сегментации, используя комбинацию геометрических и цветовых признаков точек. Метод может быть эффективно использован для разреженных, зашумленных, неоднородных и невыпуклых облаков точек. В работе было проведено компьютерное моделирование известных методов для семантической сегментации 3D данных с использованием эталонной коллекции данных ModelNet 40 и набора данных археологических памятников бронзового века Южного Зауралья, а именно данных, полученных в результате тахеометрической съемки комплекса археологических памятников в долине реки Синташта с использованием тахеометра Trimble 3300. Был проведен сравнительный анализ предложенного метода и современных методов 3D семантической сегментации с разными комбинациями входных признаков облаков точек, также в работе исследовано влияние на точность семантической сегментации способа формирования облака точек: в первом случае исследовалось облако точек из эталонного набора данных во втором случае применены варианты с использованием 3D регистрации на основе алгоритма ICP (iterative closest point).
В статье представлен метод уменьшения ошибки реконструкции изображения для рентгеновской компьютерной томографии путем применения вейвлет-фильтрации зашумленных проекционных данных. Вейвлет-преобразование и основанное на нем вейвлет-фильтрация одномерных сигналов дает возможность определять конкретное место соответствия частотной и временной (в данном случае пространственной по координате детекторов) области. Это позволяет однозначно определять переход из частотной области в пространственную и обратно. Для фильтрации проекционных данных используется вейвлет-преобразование, которое дает возможность через коэффициенты, определяющие масштабирующие функции и функции вейвлетов определять в частотной и пространственной области место шума в зашумленном сигнале и осуществлять выделение не зашумленного сигнала путем назначения порогов фильтрации на вышеуказанные коэффициенты. Для усиления фильтрующих свойств вейвлет-преобразования предложено разбивать проекционные данные на интервалы, для каждого из которых определяются свои коэффициенты. Вейвлет-фильтрация проводится с использованием вейвлетов Добеши. Результаты исследований были подтверждены математическим моделированием зашумленных проекционных данных, их вейвлет-фильтрации и реконструкции по ним тестового томографического изображения. Математическая модель тестового объекта исследования и разработанный авторами программный реконструктор томографического изображения позволили осуществлять моделирование прямой (получение проекционных данных по тестовому объекту), обратной (получение тестового томографического изображения по проекционным данным объекта) задач томографии и осуществлять сравнительный анализ качества реконструкции изображения с «идеальными» и зашумленными проекционными данными.
Издательство
- Издательство
- ЮУрГУ
- Регион
- Россия, Челябинск
- Почтовый адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- Юр. адрес
- 454080, Уральский федеральный округ, Челябинская область, г. Челябинск, просп. В.И. Ленина, д. 76
- ФИО
- Александр Рудольфович Вагнер (Ректор)
- E-mail адрес
- admin@susu.ru
- Контактный телефон
- +7 (351) 2635882
- Сайт
- https://www.susu.ru