Please enable JavaScript.
Coggle requires JavaScript to display documents.
SRE (Практики (Иерархия релабилити (Мониторинг, Ответ на инциденты,…
SRE
Практики
-
-
-
Troubleshooting
Шаги
-
-
-
Проверка гипотез
-
вносить активные изменения, чтобы проверить
-
-
-
-
Постмортем
Не обвинительные,а конструктивные
-
-
-
Трекинг падений
Ескалатор
Если первый не откликнулся, алертит второму и т.д.
-
-
Software Engineering
Не скатываться только в опс, не скатываться только в разработку
Разработка для всех, но с ограниченным скоупом
-
-
Балансирование нагрузки
На фронте
В зависимости от цели, можно по-разному
-
-
-
-
-
-
-
-
Целостность данных
-
-
-
Умеем восстанавливаться, а не бекапить
-
-
Команда показывает, что могут восстанавливаться достаточно быстро
-
-
Мониторинг
-
-
-
-
-
Правила для событий, про которые надо алёртить
-
-
-
-
-
-
-
Принятие риска
-
-
доступность
-
аптайм/даунтайм
гугл уже не бывает недоступен совсем, поэтому уже не так показательно
-
-
Toil
-
-
Почему меньше лучше
-
-
Если им заниматься, его будут подкидывать
Как считать
На каждого члена команды SRE, а не в среднем на всех
Всегда ли toil плох?
нет, но если много — грустняво
-
SLO
SLO (objective)
если превышаем, тоже может быть плохо
-
-
-
не 100% (для тех, кто не запомнил)
-
внутренние могут быть строже, чем внешние
-
-
-
-
Sysadmin approach vs SRE
-
SRE: google's approach
-
-
-
-
-
-
-
-
-
Планирование мощностей
-
-
Следить за событиями, которые могут увеличить трафик
-
-
-