РАЗРАБОТКА ПРОТОТИПА ВЫСОКОПРОИЗВОДИТЕЛЬНОГО ГРАФОВОГО ФРЕЙМВОРКА ДЛЯ ВЕКТОРНОЙ АРХИТЕКТУРЫ NEC SX-AURORA TSUBASA (2020)
В данной статье описан подход к созданию прототипа графового фреймворка VGL (Vector Graph Library), нацеленного на эффективную реализацию графовых алгоритмов для современной векторной архитектуры NEC SX–Aurora TSUBASA. Современные векторные системы позволяют значительно ускорять приложения, интенсивно использующие подсистему памяти, подклассом которых являются графовые алгоритмы. Однако подходы к эффективной реализации графовых алгоритмов для векторных систем на сегодняшний день исследованы крайне слабо: вследствие сильно нерегулярной структуры графов реального мира, эффективно задействовать векторные особенности целевых платформ затруднительно. В работе показано, что разработанные на основе предложенного фреймворка VGL реализации графовых алгоритмов не уступают в производительности оптимизированным “вручную” аналогам за счет инкапсуляции большого числа оптимизаций графовых алгоритмов, характерных для векторных систем. Вместе с этим предложенный фреймворк позволяет значительно упростить процесс разработки графовых алгоритмов для векторных систем, на порядок сокращая объем кода реализуемых алгоритмов и скрывая от пользователя особенности программирования систем данного класса.
Идентификаторы и классификаторы
- eLIBRARY ID
- 43989864
Разработка эффективных реализаций графовых алгоритмов является чрезвычайно важной проблемой современной информатики, поскольку графы крайне удачно моделируют многие объекты реального мира из различных прикладных областей. Так, обработка графов используется при анализе социальных сетей и веб-графов, решении инфраструктурах задач, социально-экономическом моделировании, решении биологических задач, и многих других.
При решении графовых задач традиционно используются суперкомпьютерные системы как с общей, так и с распределенной памятью. Неоспоримым преимуществом систем с распределенной памятью является возможность обработки графов существенно больших размеров, что, однако, достигается ценой значительного снижения производительности [1]. В то же время многие актуальные графовые задачи недостаточно велики, чтобы оправдать распределенные решения с использованием кластеров. Так, например, граф, моделирующий связи между друзьями в социальной сети Facebook, занимает лишь 1,5 ТБ в несжатом виде [2], что позволяет разместить данный граф в памяти многих систем с общей памятью.
Список литературы
- McSherry F., Isard M., Murray D.G. Scalability! but at what COST? // Proc. 15th Workshop on Hot Topics in Operating Systems, 2015. https://www.usenix.org/conference/hotos15.
- Backstrom L., Boldi P., Rosa M., Ugander J., Vigna S. Four degrees of separation // Proc. 4th Annual ACM Web Science Conference. New York: ACM Press, 33-42, 2012.
- Afanasyev I.V., Voevodin Vad.V., Voevodin Vl.V., Komatsu K., Kobayashi H. Developing efficient implementations of shortest paths and page rank algorithms for NEC SX-Aurora TSUBASA architecture // Lobachevskii Journal of Mathematics. 2019. 40, N 11. 1753-1762. EDN: CPSKVU
- Afanasyev I.V., Antonov A.S., Nikitenko D.A., Voevodin V.V., Voevodin V.V., Komatsu K., Watanabe O., Musa A., Kobayashi H. Developing efficient implementations of Bellman-Ford and forward-backward graph algorithms for NEC SX-ACE // Supercomputing Frontiers and Innovations. 2018. 5, N 3. 65-69. EDN: YUTYEP
- Shun J., Blelloch G.E. Ligra: a lightweight graph processing framework for shared memory // ACM SIGPLAN Notices. 2013. 48, N 8. 135-146.
- Nguyen D., Lenharth A., Pingali K. A lightweight infrastructure for graph analytics // Proc. 24th ACM Symposium on Operating Systems Principles. New York: ACM Press, 456-471, 2013.
- Wang Y., Davidson A., Pan Y., Wu Y., Riffel A., Owens J.D. Gunrock: a high-performance graph processing library on the GPU // Proc. 21st ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming. ACM SIGPLAN Notices. 2016. 48. DOI: 10.1145/3016078.2851145
- Khorasani F., Vora K., Gupta R., Bhuyan L.N. Cusha: vertex-centric graph processing on GPUs // Proc. 23rd International Symposium on High-Performance Parallel and Distributed Computing. New York: ACM Press, 239-252. 2014.
- Zhong J., He B. Medusa: Simplified graph processing on GPUs // IEEE Transactions on Parallel and Distributed Systems. 2013. 25, N 6. 1543-1552.
-
Liu H. and Huang Howie H. Enterprise: breadth-first graph traversal on GPUs // Proc. Int. Conf. on High Performance Computing, Networking, Storage, and Analysis. Piscataway: IEEE Press, 2015. DOI: 10.1145/2807591.2807594
-
Komatsu K., Momose S., Isobe Y., Watanabe O., Musa A., Yokokawa M., Aoyama T., Sato M., Kobayashi H. Performance evaluation of a vector supercomputer SX-Aurora TSUBASA // Proc. Int. Conf. on High Performance Computing, Networking, Storage, and Analysis. Piscataway: IEEE Press, 2018. DOI: 10.1109/SC.2018.00057
-
Yamada Y., Momose S. Vector engine processor of NEC's brand-new supercomputer SX-Aurora TSUBASA // Proc. Int. Symposium on High Performance Chips. https://www.hotchips.org/hc30/2conf/2.14_NEC_vector_NEC_SXAurora_TSUBASA_HotChips30_finalb.pdf.
-
Egawa R., Komatsu K., Momose S., Isobe Y., Musa A., Takizawa H., Kobayashi H. Potential of a modern vector supercomputer for practical applications: performance evaluation of SX-ACE. The Journal of Supercomputing. 2017. 73, 3948-3976.
-
Komatsu K., Egawa R., Isobe Y., Ogata R., Takizawa H., Kobayashi H. An approach to the highest efficiency of the HPCG benchmark on the SX-ACE supercomputer // Proc. Int. Conf. on High Performance Computing Networking, Storage, and Analysis. http://sc15.supercomputing.org/sites/all/themes/SC15images/tech_poster/poster_files/post277s2-file3.pdf.
-
Afanasyev I.V., Voevodin Vad.V., Voevodin Vl.V., Komatsu K., Kobayashi H. Analysis of relationship between SIMDprocessing features used in NVIDIA GPUs and NEC SX-Aurora TSUBASA vector processors // Lecture Notes in Computer Science. Vol. 11657. Heidelberg: Springer, 2019. 125-139. EDN: UUJTXC
-
Besta M., Podstawski M., Groner L., Solomonik E., Hoefler Y. To push or to pull: on reducing communication and synchronization in graph computations // Proc. 26th International Symposium on High-Performance Parallel and Distributed Computing. New York: ACM Press, 2017. 93-104.
-
Chakrabarti D., Zhan Y., Faloutsos C. R-MAT: a recursive model for graph mining // Proc. 2004 SIAM International Conference on Data Mining. Philadelphia: SIAM Press, 2004. 442-446.
-
Kunegis J. KONECT: the Koblenz network collection // Proc. Int. 22nd Conf. on World Wide Web. New York: ACM Press, 2013. 1343-1350.
-
Stanford Large Network Dataset Collection. https://snap.stanford.edu/data/.
-
Murphy R.C., Wheeler K.B., Barrett B.W., Ang,J.A. Introducing the graph 500. http://www.richardmurphy.net/archive/cug-may2010.pdf.
Выпуск
Методы и алгоритмы вычислительной математики и их приложения. Параллельные программные средства и технологии
Другие статьи выпуска
Статья посвящена исследованию нового метода решения сверхбольших задач линейного программирования. Указанный метод получил название “апекс-метод”. Апекс-метод работает по схеме предиктор-корректор. На фазе предиктор находится точка, лежащая на границе n-мерного многогранника, задающего допустимую область задачи линейного программирования. На фазе корректор организуется итерационный процесс, в результате которого строится последовательность точек, сходящаяся к точному решению задачи линейного программирования. В статье дается формальное описание апекс-метода и приводятся сведения о его параллельной реализации на языке C++ с использованием библиотеки MPI. Приводятся результаты масштабных вычислительных экспериментов на кластерной вычислительной системе по исследованию масштабируемости апекс-метода.
В работе предложен алгоритм редукции трехмерных цифровых изображений для ускорения вычисления персистентных диаграмм, характеризующих изменения в топологии порового пространства образцов горной породы. Воксели для удаления выбираются исходя из структуры своей окрестности, что позволяет редуцировать изображение за линейное время. Показано, что эффективность алгоритма существенно зависит от сложности устройства порового пространства и размеров шагов фильтрации.
Показано, что теорема Кенига о нулях аналитической функции, примененная к логарифмической производной целой функции конечного порядка, приводит к алгоритму отыскания нулей, для которого областями сходимости являются многоугольники Вороного искомых нулей. Так как диаграмма Вороного последовательности нулей составляет множество меры нуль, то алгоритм имеет глобальную сходимость. Дана оценка скорости сходимости. Для итераций высших порядков, которые строятся с помощью теоремы Кенига, рассмотрено влияние кратности корня на область сходимости и приводится оценка скорости сходимости.
Рассматривается приближенный метод решения задачи Коши для нелинейных обыкновенных дифференциальных уравнений первого порядка, основанный на применении смещенных рядов Чебышёва и квадратурной формулы Маркова. Приведены способы оценки погрешности приближенного решения, выраженного в виде частичной суммы ряда некоторого порядка. Погрешность оценивается с помощью второго приближенного решения, вычисленного специальным образом и представленного частичной суммой ряда более высокого порядка. На основе предложенных способов оценки погрешности построен алгоритм автоматического разбиения промежутка интегрирования на элементарные сегменты, делающие возможным вычисление приближенного решения с наперед заданной точностью. Работа метода проиллюстрирована примерами, в том числе примером из небесной механики.
Представлено численное исследование влияния шероховатости границраздела в слоистой среде на эффективные упругие свойства тонкослоистой среды. Предложен алгоритм построения статистически эквивалентных моделей слоистых сред двух различных типов. Первый тип включает в себя модели с постоянными упругими параметрами, но с шероховатой границей раздела. Второй тип состоит из моделей с плоскими границами раздела, но с параметрами, задаваемыми случайными величинами. При этом распределение упругих параметров в моделях второго типа (средние значения и ковариационная матрица) однозначно определяется шероховатостью границ раздела (длина корреляции и стандартное отклонение) в моделях первого типа.
В рамках статистического подхода, основанного на кинетическом уравнении для функции плотности вероятности распределения скорости и температуры частиц, построена континуальная модель, описывающая псевдотурбулентные течения дисперсной фазы. Введение функции плотности вероятности позволяет получить статистическое описание ансамбля частиц вместо динамического описания отдельных частиц на основе уравнений движения и теплопереноса типа Ланжевена. На основе уравнений для первых и вторых моментов дисперсной фазы проводится численное моделирование нестационарного течения газовзвеси, возникающего при взаимодействии ударной волны с облаком частиц. Основные уравнения имеют гиперболический тип, записываются в консервативной форме и решаются с использованием численного метода типа Годунова повышенного порядка точности. Обсуждается влияние двумерных эффектов на формирование ударно-волновой структуры течения и пространственно-временны´е зависимости концентрации частиц и других параметров потока.
Рассматривается проблема оптимального управления системой, состоящей из краевой задачи первого рода для квазилинейного параболического уравнения с неизвестным коэффициентом, а также из уравнения изменения по времени этого коэффициента. Обоснованы две постановки вариационных задач с финальным наблюдением, в которых управлением является граничный режим на одной из границ области. Доказаны свойства непрерывности и дифференцируемости соответствующих минимизируемых функционалов. Дано явное представление для дифференциалов через решение сопряженных задач. Установлен вид этих сопряженных задач, доказана их однозначная разрешимость в классе гладких функций. Проведенное исследование связано с моделированием и управлением физико-химическими процессами с изменяющимися внутренними свойствами материалов.
Сформулирована игровая модель противоборства в виде модели “нападение и защита”, указаны способы вычисления ресурсов сторон, анализированы эффективность их стратегий и установлены условия существования оптимального решения рассматриваемых задач.
Предложена нестационарная 2D-модель транспорта донных отложений в прибрежной зоне мелководных водоемов, дополненная уравнениями Навье–Стокса, неразрывности и состояния водной среды. Дискретная модель транспорта наносов получена в результате аппроксимации соответствующей линеаризованной непрерывной модели. Поскольку задачи прогнозирования транспорта наносов требуют решения в реальном или ускоренном масштабах времени, на сетках, включающих 106–109 узлов, необходима разработка параллельных алгоритмов задач гидродинамики на системах с массовым параллелизмом. Представлены результаты работы созданного эффективного программного обеспечения для выполнения гидродинамических вычислительных экспериментов, позволяющие проводить численное моделирование деформации дна в прибрежной зоне водоема. Приведены результаты численных экспериментов.
Издательство
- Издательство
- МГУ
- Регион
- Россия, Москва
- Почтовый адрес
- оссийская Федерация, 119991, Москва, Ленинские горы, д. 1
- Юр. адрес
- оссийская Федерация, 119991, Москва, Ленинские горы, д. 1
- ФИО
- Садовничий Виктор Антонович (РЕКТОР)
- E-mail адрес
- info@rector.msu.ru
- Контактный телефон
- +7 (495) 9391000
- Сайт
- https://msu.ru/