DEVELOPING A MODEL FOR HOLISTIC WORKLOAD ANALYSIS OF LARGE SUPERCOMPUTER SYSTEMS (2021)
Any modern supercomputer has an extremely complex architecture, and efficient usage of its resources is often a very difficult task, even for experienced users. At the same time, the field of high-performance computing is becoming more and more in demand, so the issue of efficient utilization of supercomputers is very urgent. Therefore, users should know everything important about performance of their jobs running on a supercomputer in order to be able to optimize them, and administrators should be able to monitor and analyze all the nuances of the efficient functioning of such systems. However, there is currently no complete understanding of what data are best to be studied (and how it should be analyzed) in order to have a whole picture of the state of the supercomputer and the processes taking place there. In this paper, we make our first attempt to answer this question. To do this, we are developing a model that describes all the potential factors that may be important when analyzing the performance of supercomputer applications and the HPC system as a whole. The paper provides both a detailed description of this model for users and administrators and some interesting real-life examples discovered on the Lomonosov-2 supercomputer using a software implementation based on the proposed model.
Идентификаторы и классификаторы
- eLIBRARY ID
- 44860479
In the field of modern high-performance computing, the paradox of supercomputer efficiency can be observed. The point of this paradox is that supercomputers seem to work efficiently, but in reality this is not entirely true. Let us consider this problem in more detail. The area of supercomputing is becoming more and more in demand [1] . The reason is that solving of an increasing number of scientific tasks requires computationally expensive experiments. For these purposes, cloud computing or servers are often not suitable, and that is when supercomputers come to the fore. Therefore, an increasing number of specialists from various scientific fields (such as astrophysics, genomic research, nanotechnology, big data analysis and artificial intelligence, as well as many, many others) are beginning to use supercomputer resources. As a result, the demand for supercomputers is growing. This leads to the situation that all available HPC resources are constantly occupied. Moreover, users often have to queue long enough, waiting for their turn to start their jobs. For example, the average waiting time in the main queue of the Lomonosov-2 supercomputer [2] in 2020 (until mid-December) was 20 hours. Moreover, during the same period of time, the average utilization of the supercomputer — the average share of occupied compute nodes (on which jobs are running) among all available ones — is very high and equals to 97%. In this case, we can say that available supercomputer resources are used very efficiently
Список литературы
- E. Joseph and S. Conway, “Major Trends in the Worldwide HPC Market”, https://hpcuserforum.com/ presentations/stuttgart2017/IDC-update-HLRS.pdf. Cited January 29, 2021.
- V. V. Voevodin, A. S. Antonov, D. A. Nikitenko, et al., “Supercomputer Lomonosov-2: Large Scale, Deep Monitoring and Fine Analytics for the User Community”, Supercomput. Front. Innov. 6 (2), 4-11 (2019). DOI: 10.14529/jsfi190201 EDN: SYPENS
- D. A. Nikitenko, P. A. Shvets, and V. V. Voevodin, “Why do Users Need to Take Care of Their HPC Applications Efficiency?”, Lobachevskii J. Math. 41 (8), 1521-1532 (2020). DOI: 10.1134/S1995080220080132 EDN: ZJQJEI
- Intel VTune Amplifier Documentation. https://software.intel.com/en-us/vtune. Cited January 29, 2021.
- N. Nethercote and J. Seward, “Valgrind: A Framework for Heavyweight Dynamic Binary Instrumentation”, SIGPLAN Not. 42 (6), 89-100 (2007). DOI: 10.1145/1273442.1250746
- M. Geimer, F. Wolf, B. J. N. Wylie, et al., “The Scalasca Performance Toolset Architecture”, Concurr. Comput. Pract. Exp. 22 (6), 702-719 (2010). DOI: 10.1002/cpe.1556
- Vampir Framework Home Page. https://vampir.eu. Cited January 29, 2021.
- Arm Forge | Cross Platform Parallel Debugger for C++ and Cuda. https://www.arm.com/products/ development-tools/server-and-hpc/forge. Cited January 29, 2021.
- TotalView Debugger for HPC Computing. https://totalview.io. Cited January 29, 2021.
-
M. D. Jones, J. P. White, M. Innus, et al., Workload Analysis of Blue Waters, arXiv preprint: 1703.00924v1 [cs.DC] (Cornell Univ. Library, Ithaca, 2017). https://arxiv.org/abs/1703.00924. Cited January 29, 2021.
-
A. Brian et al., 2014 NERSC Workload Analysis. https://www.yumpu.com/en/document/read/55341970/2014-nersc-workload-analysis. Cited January 29, 2021.
-
N. A. Simakov, J. P. White, R. L. DeLeon, et al., A Workload Analysis of NSF's Innovative HPC Resources Using XDMoD, arXiv preprint: 1801.04306v1 [cs.DC] (Cornell Univ. Library, Ithaca, 2018). https://arxiv.org/abs/1801.04306. Cited January 29, 2021.
-
M. J. Abraham, T. Murtola, R. Schulz, et al., "GROMACS: High Performance Molecular Simulations through Multi-Level Parallelism from Laptops to Supercomputers", SoftwareX 1-2}, 19-25 (2015). DOI: 10.1016/j.softx.2015.06.001 EDN: YDKHNA
-
J. C. Phillips, R. Braun, W. Wang, et al., "Scalable Molecular Dynamics with NAMD", J. Comput. Chem. 26 (16), 1781-1802 (2005). DOI: 10.1002/jcc.20289 EDN: SQGPHH
-
J. Hafner, "Ab-initio Simulations of Materials Using VASP: Density-Functional Theory and Beyond", J. Comput. Chem. 29 (13), 2044-2078 (2008). DOI: 10.1002/jcc.21057 EDN: MLQZZP
-
P. A. Shvets and V. V. Voevodin, "'Endless' Workload Analysis of Large-Scale Supercomputers", Lobachevskii J. Math. 42 (1) [in press].
-
Redash Homepage. https://redash.io. Cited January 29, 2021.
-
P. Shvets, V. Voevodin, and D. Nikitenko, "Approach to Workload Analysis of Large HPC Сenters", in Communications in Computer and Information Science (Springer, Cham, 2020), Vol. 1263, pp. 16-30. EDN: RCYBRR
-
J. Hutter, M. Iannuzzi, F. Schiffmann, and J. VandeVondele, "cp2k: Atomistic Simulations of Condensed Matter Systems", Wiley Interdiscip. Rev. Comput. Mol. Sci. 4 (1), 15-25 (2014). DOI: 10.1002/wcms.1159 EDN: TCFMAV
Выпуск
Методы и алгоритмы вычислительной математики и их приложения.
Параллельные программные средства и технологии.
Другие статьи выпуска
В работе демонстрируется, как метод апостериорной оценки порядка точности разностной схемы по Ричардсону позволяет сделать вывод о некорректности постановки (в смысле отсутствия решения) решаемой численно начально-краевой задачи для уравнения в частных производных. Это актуально в ситуации, когда аналитическое доказательство некорректности постановки ещё не получено или принципиально невозможно.
Предложен балансно-характеристический метод решения систем линейных дифференциальных уравнений в частных производных гиперболического типа, обладающий четвертым порядком аппроксимации на равномерных сетках и вторым порядком и улучшенными дисперсионными свойствами на неравномерных сетках. Метод основан на известной схеме КАБАРЕ, балансные фазы которой модифицированы путем добавления антидисперсионных членов особого вида. Ранее метод, обладающий схожими свойствами, предлагался только для простейшего одномерного линейного уравнения переноса. Приведенная модификация схемы позволяет улучшить дисперсионные свойства переноса сразу всех инвариантов Римана рассматриваемой системы уравнений. Схема бездиссипативна при отключенных процедурах монотонизации и устойчива при числах Куранта CFL ≤ 1. Точность метода и его порядок сходимости продемонстрированы на серии расчетов задачи о переносе волны, промодулированной гауссианом, на последовательности сгущающихся сеток. Предложенный метод планируется использовать в качестве основы для построения схемы КАБАРЕ с улучшенными дисперсионными свойствами для систем нелинейных дифференциальных уравнений.
Строятся экономичные разностные схемы сквозного счета для решения прямых задач сейсмики в осесимметричной постановке. При распараллеливании алгоритмов, реализующих схемы на многопроцессорных вычислительных системах, применяется метод двуциклического расщепления по пространственным переменным. Одномерные системы уравнений на этапах расщепления решаются на основе явных сеточно-характеристических схем и неявной разностной схемы типа “предиктор-корректор” с контролируемой искусственной диссипацией энергии. Верификация алгоритмов и программ выполнена на точных решениях одномерных задач типа бегущих монохроматических волн. Сравнение результатов показало неоспоримые преимущества схемы с контролируемой диссипацией энергии по точности расчета гладких решений и целесообразность применения явных монотонных схем при расчете разрывов.
Проводится численное моделирование обтекания гиперзвукового летательного аппарата с использованием модели высокотемпературного воздуха и гибридной архитектуры на основе высокопроизводительных графических процессорных устройств. Расчеты проводятся на основе уравнений Эйлера, для дискретизации которых применяется метод конечных объемов на неструктурированных сетках. Приводятся результаты исследования эффективности расчета гиперзвуковых течений газа на графических процессорах. Обсуждается время счета, достигнутое при использовании моделей совершенного и реального газа.
Исследуются задачи взаимодействия ударной волны с ограниченным слоем газовзвеси, внутри которого имеется неоднородность квадратного сечения пониженной или повышенной плотности. Для расчетов используется гибридный метод крупных частиц второго порядка аппроксимации по пространству и времени. Правильность численных разрывных решений, в частности скачков пористости, подтверждается сравнением с асимптотически точными профилями плотности смеси. Приведены аналитические зависимости ослабления ударной волны слоем газовзвеси. Изучены ударно-волновые структуры в двумерных областях и влияние на них релаксационных процессов.
Издательство
- Издательство
- МГУ
- Регион
- Россия, Москва
- Почтовый адрес
- оссийская Федерация, 119991, Москва, Ленинские горы, д. 1
- Юр. адрес
- оссийская Федерация, 119991, Москва, Ленинские горы, д. 1
- ФИО
- Садовничий Виктор Антонович (РЕКТОР)
- E-mail адрес
- info@rector.msu.ru
- Контактный телефон
- +7 (495) 9391000
- Сайт
- https://msu.ru/