Отказоустойчивость: зачем, почему и как мы проверяем её на проде

  • 40 мин

Этот доклад посвящён тому, почему мы решили проверять поведение нашей системы при сбоях её компонентов не в тестовой среде, а прямо в продакшене – и как мы это реализуем.

  • Сможет ли система продолжить работу в условиях отказа?
  • Действительно ли сработают наши резервные механизмы?
  • Не потеряем ли мы данные?
  • Как будет происходить восстановление системы?
  • Понадобится ли участие человека, и если да – готов ли персонал к такому сценарию?

Мы разберём, как мы организуем этот процесс, как он развивается, какие цели перед собой ставим и как анализируем результаты таких испытаний.

Комментарии ({{Comments.length}} )
  • {{comment.AuthorFullName}}
    {{comment.AuthorInfo}}
    {{ comment.DateCreated | date: 'dd.MM.yyyy' }}

Для того чтобы оставить комментарий необходимо

или
Напишите нам, мы онлайн!