Прокачка алертов: как постмортемы и ранбуки меняют игру?
Рассмотрим:
🔵что такое постмортем, как с ним работать и извлекать выгоду
Кратко: post mortem — это анализ инцидента, который проводится после того, как проблема решена. Он нужен для того, чтобы извлечь уроки из сбоев, выявить root causes (корневые причины), найти слабые места в системе и усовершенствовать процессы. Особенно это полезно, когда есть повторяющиеся проблемы, которые приводят к деградациям и потерям.
Такой подход позволит устранить конкретную проблему и снизить вероятность её повторения в будущем.
Ещё расскажем и покажем:
👉 зачем нужен ранбук и как его писать
👉 как обычный алерт можно превратить в полезный инструмент с помощью постмортема и ранбука
Спикеры:
🔵Кирилл Борисов, SRE в VK
🔵Максим Гусев, SRE Dodo Engineering
Уникальные кейсы из реальной практики и финансовые вопросы инцидентов в крупных компаниях — на нашей встрече!
С 18 ноября 3 недели будем учиться SRE. Программа сделана с участием SRE-инженеров из ведущих международных компаний — Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам.
Узнать подробности и занимать места по ссылке: https://to.slurm.io/rtnZlQ
Видео Прокачка алертов: как постмортемы и ранбуки меняют игру? автора Слёрм
Видео Прокачка алертов: как постмортемы и ранбуки меняют игру? автора Слёрм
Показать
Похожие видео
Компактная версия откатных ворот.Как создать свой бизнесО недопустимости совершения преступлений и правонарушенийРезервные копии спасают или нет?Глобальные и локальные переменные в Bash: что нужно знать каждому!Понятие отказоустойчивостиЧто такое REST?Как защитить свой сервис от падений? Health Check в Kubernetes и не только!Navigate A2 Report Unit 2Пассажир. Безопасность пассажираИскусственный ИнтеллектgRPC: Что это и зачем он нужен?Navigate A2 Report Unit 11Сбой Skyscanner из-за ArgoCD: один параметр стер все сервисы!Navigate A2 Report Unit 7PriorityClass: спасение для ваших подов!Navigate A2 Report Unit 8Пешеход. Безопасность пешеходаЦифровая инфраструктураAI против Linux-администраторов: кто будет управлять серверами в будущем?