Сломай меня, если сможешь! Или как протестировать устойчивость сложных распределенных системы к нештатным ситуациям?
-
-
40 мин
Мы тестируем функциональность системы, тестируем производительность, пишем юнит тесты. Однако, этого всего может быть недостаточно, если речь идет о крупных высоконагруженных распределенных системах с высокой ценой ошибки.
Что будет с вашей распределенной системой в случае сетевой сегментации, вызванной сетевыми проблемами?
Сможет ли ваша система корректно реагировать на выход из строя узлов кластера?
Вы уверены, что ваша база данных не теряет данные?
Задумывались ли вы о надежности и безопасности вашей системы?
В этом докладе я расскажу о том, как, изучив опыт Amazon, Netflix и Twitter, мы создали свой собственный фреймворк для тестирования устойчивости системы к нештатным ситуациям.
На примере тестирования новой микросервисной архитектуры Сбербанка мы разберем различные сценарии для тестирования реакции системы на сбои. Поговорим о технологиях, которые мы используем.