А. А. Бондаренко, П. А. Ляхов, М. В. Якобовский, “Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 8:2 (2019), 76

Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика»

RUS ENG

ЖУРНАЛЫ ПЕРСОНАЛИИ ОРГАНИЗАЦИИ КОНФЕРЕНЦИИ СЕМИНАРЫ ВИДЕОТЕКА ПАКЕТ AMSBIB

JavaScript is disabled in your browser. Please switch it on to enable full functionality of the website

	Общая информация
	Последний выпуск
	Архив

	Поиск публикаций
	Поиск ссылок

	RSS
	Последний выпуск
	Текущие выпуски
	Архивные выпуски
	Что такое RSS

Вестн. ЮУрГУ. Сер. Выч. матем. информ.:
Год:
Том:
Выпуск:
Страница:
	Найти

Персональный вход:
Логин:
Пароль:
	Запомнить пароль
	Войти
	Забыли пароль?
	Регистрация

Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика», 2019, том 8, выпуск 2, страницы 76–91
DOI: https://doi.org/10.14529/cmse190205 (Mi vyurv213)

Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа

А. А. Бондаренко, П. А. Ляхов, М. В. Якобовский

Институт прикладной математики им. М.В. Келдыша Российской академии наук (125047 Москва, Миусская пл., д. 4)

PDF полного текста (595 kB)

Список литературы:

PDF

HTML

DOI: https://doi.org/10.14529/cmse190205

Аннотация: Увеличивающийся рост числа компонент суперкомпьютеров приводит специалистов в области HPC к неблагоприятным оценкам для будущих суперкомпьютеров: диапазон среднего времени между отказами будет составлять от 1 часа до 9 часов. Данная оценка ставит под вопрос возможность проведения длительных расчетов на суперкомпьютерах. В работе предлагается метод восстановления после отказов, не требующий возврата большинства процессов к последней контрольной точке, что может позволить сократить накладные расходы для некоторых вычислительных алгоритмов. Стандартный метод обеспечения отказоустойчивости заключается в координированном сохранении, а в случае отказа осуществляется возврат всех процессов к последней контрольной точке. Предлагаемая стратегия заключается в координированном сохранении и журналировании передаваемых данных, а в случае отказа происходит асинхронное восстановление. При асинхронном восстановлении несколько запасных процессов проводят пересчет данных потерянных после отказа, а остальные процессы находятся в ожидании окончания процедуры восстановления потерянных данных. Разработаны параллельные программы решающие задачу о распространении тепла в тонкой пластине. В данных программах отказы происходят после вызова функции raise (SIGKILL), а координированное или асинхронное восстановление осуществляется с помощью функционала ULFM. Для получения теоретических оценок накладных расходов предложен имитационный метод, моделирующий исполнение программы с отказами. В данном методе отказ может произойти во время расчетов, а также во время сохранения контрольных точек или в ходе восстановления. Проведено сравнение методов восстановления при разных значениях частоты отказов для задачи распространения тепла в тонкой пластине, в которой объем данных для журналирования незначителен. Сравнение показало, что применение асинхронного восстановления приводит к сокращению накладных расходов от 22 % до 40 % при теоретической оценке и от 13 % до 53 % в вычислительном эксперименте.

Ключевые слова: расширение ULFM, контрольные точки, координированное сохранение, асинхронное восстановление, отказоустойчивость.

Финансовая поддержка	Номер гранта
Российский фонд фундаментальных исследований	17-07-01604 а
Работа выполнена при финансовой поддержке Российского фонда фундаментальных исследований в рамках научного проекта № 17-07-01604 а.

Поступила в редакцию: 20.11.2018

Реферативные базы данных:

Тип публикации: Статья

УДК: 004.052.3

Образец цитирования: А. А. Бондаренко, П. А. Ляхов, М. В. Якобовский, “Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа”, Вестн. ЮУрГУ. Сер. Выч. матем. информ., 8:2 (2019), 76–91

Цитирование в формате AMSBIB

\RBibitem{BonLyaIak19}

\by А.~А.~Бондаренко, П.~А.~Ляхов, М.~В.~Якобовский

\paper Координированное сохранение с журналированием передаваемых данных и асинхронное восстановление в случае отказа

\jour Вестн. ЮУрГУ. Сер. Выч. матем. информ.

\yr 2019

\vol 8

\issue 2

\pages 76--91

\mathnet{http://mi.mathnet.ru/vyurv213}

\crossref{https://doi.org/10.14529/cmse190205}

\elib{https://elibrary.ru/item.asp?id=38073495}

Образцы ссылок на эту страницу:

https://www.mathnet.ru/rus/vyurv213

https://www.mathnet.ru/rus/vyurv/v8/i2/p76

Citing articles in Google Scholar: Russian citations, English citations
Related articles in Google Scholar: Russian articles, English articles

Вестник Южно-Уральского государственного университета. Серия «Вычислительная математика и информатика»

Обратная связь:

Пользовательское соглашение

Регистрация посетителей портала

Логотипы