26-29 октября 2010 года, Красноярск

Городничев М.А.  

Управление объединением вычислительных кластеров для выполнения распределенных задач и организация межкластерных коммуникаций в системе NumGRID

Существует потребность в объединении вычислительных систем разных организаций и внутри организаций для:

  • решения больших задач,
  • решения задач, части которых требуют различного специализированного оборудования или программного обеспечения,
  • продления срока службы устаревающего оборудования.

Наиболее распространенным средством программирования для систем с распределенной памятью являются библиотеки MPI [1], но устройство современных вычислительных кластеров не позволяет непосредственно запустить приложение MPI с распределением процессов по вычислительным узлам кластеров.

В NumGRID разработаны средства межкластерных коммуникаций и частично реализован стандарт MPI-1.1. Реализованы средства для конструирования объединения систем, запуска и мониторинга состояния задач. Пользователь, обладающий правом доступа на нескольких кластерах, может организовать распределенный счет без существенного привлечения администрации кластеров.

Сообщения между процессами, расположенными на различных кластерах, пересылаются посредством шлюзов, запускаемых на головных узлах кластеров. Сообщения между процессами внутри кластера, передаются средствами установленных на данном кластере библиотек MPI, что позволяет эффективно использовать высокоскоростные сети.
Проведены испытания новой реализации системы по объединению кластеров ССКЦ СО РАН и НГУ на программах численного моделирования, показано ускорение программ.

Дальнейшая работа ведется в направлении полной реализации стандартов MPI, усовершенствования системы управления и разработки методов реализации прикладных задач для неоднородных систем. Фрагментированное программирование [2] является перспективным средством реализации прикладных программ для NumGRID.

Список литературы

  1. MPI standards, www.mpi-forum.org
  2. V. Malyshkin, V. Perepelkin. Optimization of Parallel Execution of Numerical Programs in LuNA Fragmented Programming System. Methods and Tools of Parallel Programming Multicomputers Lecture Notes in Computer Science, 2011, Volume 6083/2011, pp. 1-10, Springer.


К списку докладов