Большинство алертов в DevOps-командах не требуют реакции — система восстанавливается сама до того, как инженер откроет ноутбук. Фильтр с окном ожидания 3-5 минут отсекает самовосстанавливающиеся ошибки и отправляет уведомление, только если проблема сохраняется. В нашем мониторинге это убрало 70% шума, а оставшиеся алерты стали вызывать реальную реакцию вместо игнорирования.
Обычно узнают в 3 часа ночи. Алерт в Slack, адреналин, переключение контекста. Через 30 секунд все нормализуется. Сон уже не вернется.
Каждый алерт — токен внимания. По данным индустрии, 67% алертов в DevOps-командах игнорируются. При этом 73% организаций получали простои, потому что настоящий алерт потерялся в шуме. Парадокс: чем больше алертов — тем меньше реакции на те, что важны.
Максим на встрече сформулировал коротко: «Если ошибка исчезает сама — незачем сообщать.»
Фильтр
Простой вопрос: успеет ли человек среагировать? Если система восстанавливается за 2-3 минуты — к моменту, когда инженер откроет ноутбук, проблемы не будет.
Как работает окно ожидания
Правило: окно 3-5 минут. Ошибка появилась — ждем. Не исчезла — алерт. Исчезла — молчим.
У нас это убрало примерно 70% шума. Оставшиеся 30% требуют реакции. Когда приходит алерт после такого фильтра, команда знает: это серьезно.
Не только мониторинг
Тот же принцип мы применяем в проектах шире. Метрика в дашборде просела на день — не паника, а наблюдение. Не выровнялась за неделю — пора разбираться.
Мы писали про уведомления о хорошем — зачем проектировать позитивные сигналы. Это обратная сторона: не каждый негативный сигнал стоит передавать.
Частые вопросы
Как выбрать длину окна ожидания?
Зависит от SLA сервиса. Для внутренних инструментов 5 минут — нормально. Для платежного API или чат-бота с живыми пользователями — 30-60 секунд. Начните с 3 минут и калибруйте по количеству ложных срабатываний за неделю.
Какие инструменты поддерживают такой фильтр?
Grafana (Pending Period), PagerDuty (Alert Grouping + Suppression), Datadog (Evaluation Delay). В простых случаях хватает кастомного скрипта перед отправкой в Slack — буфер на N минут перед нотификацией.
А если фильтр пропустит серьезную проблему?
Фильтр не убирает алерт — он откладывает его. Если ошибка сохраняется дольше окна, уведомление придет. Для критичных систем (платежи, авторизация) окно можно сократить до 1 минуты или отключить фильтр совсем.
Проектируйте тишину так же осознанно, как шум.
