Тысяча и одно падение продакшена

October 27, 2016

Есть одна тема, которую я прямо чувствую, что не принято обсуждать - это падения продакшена. Причем, хотя не падают только те проекты, которыми никто не пользуется или которые еще не написаны (идеальный софт бывает только в голове), но почему-то все равно стыдно.

99% падений, чего уж там скрывать, вызваны именно ошибками инженеров, человеческим фактором, незнанием каких-то тонкостей и особенностей системы и так далее. Скорее всего поэтому тема падений неудобная, так как люди считают, что признание своих ошибок подрывает их профессионализм. Но я с таким подходом категорически не согласен. Как программные дефекты - это часть процесса управления разработкой, так и разнообразные нештатные ситуации - это часть процесса управления эксплуатации систем. Бизнес интегрити и все дела.

Чтобы еще более успокоить, приведу цитату из книги Питера Друкера "Эффективный управляющий" (вообще книга хороша, хочется процититировать ее почти целиком, выделение жирным - мое):

Любой, кто так или иначе был связан с кампанией безопасности движения - автомобильная промышленность, автоинспекция, автоклубы и страховые компании, - считали, что признание вероятности происшествий является чуть ли не подстрекательством опасного вождения, аналогично тому, как поколение моего деда считало, что врач, лечащий венерическое заболевание, потворствует аморальному поведению. Это типичное свойство человеческой натуры путать вероятность с моральной стороной вопроса и является причиной опасных ошибок, которые бывает трудно исправить.

Так что падения - это нормально, значит у вас есть живой сервис. Падение под трафиком - это вообще прекрасно, значит у вас есть трафик. Падение из-за неправильных действий - чудесно, значит вы что-то делаете. И так далее :smile:.

comments powered by Disqus