Международная конференция «Математические и информационные технологии, MIT-2011»
(IX конференция «Вычислительные и информационные технологии в науке,
технике и образовании») № гос. регистрации 0321102644, ISBN 978-5-905569-02-9

Врнячка Баня, Сербия, 27–31 августа 2011 г.

Будва, Черногория, 31 августа – 5 сентября 2011 г.

Поляков А.Ю.   Молдованова О.В.   Карасев Б.И.  

Подходы к оптимизации контрольных точек восстановления параллельных программ

Докладчик: Поляков А.Ю.

     Распределенные вычислительные системы (ВС) являются важнейшим инструментом решения сложных научных, инженерных и экономических задач. Такие системы являются большемасштабными, количество процессорных ядер в их составе варьируется от десятков до сотен тысяч, а число узлов ввода-вывода (УВВ) – от нескольких десятков до сотен. Физически несколько процессорных ядер обычно располагаются на вычислительном узле (ВУ). При построении большемасштабных ВС используются высоконадежные компоненты, однако время между частичными отказами в них составляет в среднем несколько дней. Это ставит под сомнение осуществимость решения трудоемких задач, представленных параллельными программами (ПП) с количеством ветвей, близким к числу ядер в ВС.
     Основным подходом к обеспечению отказоустойчивости распределенных ВС является применение программ, обладающих свойством возобновляемости. Такие программы способны сохранять свое промежуточное состояние в контрольных точках (КТ). В случае отказа ресурсов ВС любая доступная КТ позволяет перезапустить (возобновить) исходную программу, начальное состояние которой будет соответствовать моменту создания этой КТ.
     Недостатком такого подхода является появление высоких накладных расходов, связанных с записью и хранением формируемых КТ. В работе рассматриваются алгоритмы, позволяющие снизить указанные накладные расходы за счет сжатия КТ на вычислительных узлах, на которых они создаются. Для сжатия КТ используется технология дельта-сжатия, а также алгоритмы, применяемые в программах-архиваторах.
     Разработан адаптивный алгоритм субоптимального выбора КТ, относительно которой будет выполняться дельта-сжатие. Целью оптимизации является: 1) минимизация объёма сжатой КТ; 2) уменьшение количества сжатых КТ, необходимых для формирования результирующей КТ.
     Создан алгоритм пакетного сжатия, совмещающий универсальное и дельта-сжатие, который обеспечивает субоптимальное время формирования результирующей КТ.
     Предложен параллельный алгоритм формирования результирующей КТ из набора дельта-сжатых, который выполняет поиск наиболее позднего целостного состояния параллельной программы.

Файл тезисов: mit2011_short_v1.docx
Файл с полным текстом: Polyakov_ExtThesis.pdf


К списку докладов

© 1996-2019, Институт вычислительных технологий СО РАН, Новосибирск