Преждевременный мониторинг

November 1, 2016

Наша великолепная коллега Тоня нарисовала иллюстрацию для сегодняшней истории. Спасибо, Тоня! Три котика: :smiley_cat: :smiley_cat: :smiley_cat:.

"Преждевременный" - само слово несет в себе негативный оттенок. Мы все знаем про преждевременную оптимизацию, но я также верю, что есть преждевременный мониторинг, преждевременная архитектура, преждевременная автоматизация, преждевременное тестирование (для разнообразия речь идет о кроссбраузерном тестировании, предполжим кто-то делает MVP в 11 версиях браузеров одновременно, :open_mouth:) и много еще всего преждевременного.

Хочу поделиться одним наблюдением. Представьте, что вы отправляете в публичный канал информацию из любой системы мониторинга. В этом случае приходится, что называется "отвечать за базар". Например, вдруг система начинает срабатывать слишком часто, даже ложно (а кто знает ложно или не ложно, надо разбирать каждый случай), она спамит канал и о вас думают плохо.

Также люди неявно ожидают реакции на каждую неполадку. Допустим ночью 5 раз отправился сигнал, что сайт не доступен. Коллеги приходят на работу, видят кучу красных сообщений, и если нет никаких комментариев, они думают, что вам все по барабану. Я не ханжа, бывают ситуации, когда действительно по барабану ночные (а иногда и дневные) падения, красные тесты и так далее. Но надо помнить, что если вы понимаете и принимаете какие-то компромисы, не обязательно это будет очевидно стороннему наблюдателю.

Публичный контракт - страшная вещь. Помню, что криво настроенный заббикс, мне слал каждый день по 10-50 писем, которые я спокойно просматривал и удалял довольно долго. Не было времени настроить нормально, однако среди алертов был небольшой процент значимых, поэтому отключить совсем тоже было нельзя. Если бы такое количество писем приходило бы генеральному, он был бы очень встревожен происходящим. Хотя качество продакшена соответствовало уровню сервиса на тот момент.

Уверен, что продукт должен развиваться равномерно. Если сервис в зачаточном состоянии, то и мониторинг должен быть зачаточным, самый минимум. Так как грамотная настройка алертов и отладка процесса реагирования на инциденты могут оказаться слишком трудоемкими и избыточными, пока достаточно "чик-чик и в продакшен".

comments powered by Disqus