Отказоустойчивость: зачем, почему и как мы проверяем её на проде
-
-
40 мин
Этот доклад посвящён тому, почему мы решили проверять поведение нашей системы при сбоях её компонентов не в тестовой среде, а прямо в продакшене – и как мы это реализуем.
- Сможет ли система продолжить работу в условиях отказа?
- Действительно ли сработают наши резервные механизмы?
- Не потеряем ли мы данные?
- Как будет происходить восстановление системы?
- Понадобится ли участие человека, и если да – готов ли персонал к такому сценарию?
Мы разберём, как мы организуем этот процесс, как он развивается, какие цели перед собой ставим и как анализируем результаты таких испытаний.