Что такое post-mortem?

Post-mortem — это структурированный анализ инцидента после его устранения. Цель — выявить корневые причины и предотвратить повторение. В отличие от поиска виноватых, blameless post-mortem фокусируется на системных недостатках.

Как часто нужно проводить post-mortem?

SEV1 и SEV2 инциденты разбираются всегда: SEV1 — в течение 48 часов, SEV2 — 72 часа. SEV3 — по решению команды, если инцидент выявил системную проблему. Повторяющиеся SEV4 также стоит разобрать.

Кто должен участвовать в post-mortem встрече?

Все участники реагирования на инцидент, технический лид и при необходимости product owner. Встреча длится 60-90 минут. Если нужно больше — проблема в подготовке документа.

Какие категории причин инцидентов выделяют?

Основные категории: Configuration (неправильный конфиг), Deployment (проблема при деплое), Dependency failure (сторонний сервис), Capacity (нехватка ресурсов), Human error (ошибочное действие). Ежеквартальный обзор помогает направить инвестиции в надёжность.

Что такое post-mortem?

Post-mortem — это структурированный анализ инцидента после его устранения. Цель — выявить корневые причины и предотвратить повторение. В отличие от поиска виноватых, blameless post-mortem фокусируется на системных недостатках.

Как часто нужно проводить post-mortem?

SEV1 и SEV2 инциденты разбираются всегда: SEV1 — в течение 48 часов, SEV2 — 72 часа. SEV3 — по решению команды, если инцидент выявил системную проблему. Повторяющиеся SEV4 также стоит разобрать.

Кто должен участвовать в post-mortem встрече?

Все участники реагирования на инцидент, технический лид и при необходимости product owner. Встреча длится 60-90 минут. Если нужно больше — проблема в подготовке документа.

Какие категории причин инцидентов выделяют?

Основные категории: Configuration (неправильный конфиг), Deployment (проблема при деплое), Dependency failure (сторонний сервис), Capacity (нехватка ресурсов), Human error (ошибочное действие). Ежеквартальный обзор помогает направить инвестиции в надёжность.

Настройка Post-Mortem процесса для анализа инцидентов

Q: Как гарантировать выполнение action items?

Назначайте конкретного ответственного (не команду, а имя), устанавливайте чёткий срок, создавайте тикет в Jira/Linear сразу на встрече. Обязательно проверяйте выполнение на следующем post-mortem.

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения

Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы

Сайты или веб-приложения электронной коммерции

Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров

Веб-приложения для управления бизнес-процессами

CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации

Сайты или веб-приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Услуги, которые мы предлагаем

Показано 1 из 1Все 2062 услуг

Настройка Post-Mortem процесса для анализа инцидентов

Средний

~2-3 дня

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка веб-приложения для компании Enviok
929
Разработка веб-сайта для компании ФИКСПЕР
947

Показать больше работ

Ситуация: в пятницу вечером падает payment service, error rate > 5%, 12 000 пользователей не могут завершить оплату. Команда тушит пожар 47 минут. Причина — connection pool исчерпан, потому что при деплое увеличили число воркеров, но забыли обновить конфиг pgBouncer. Через месяц — тот же симптом. Эта ситуация знакома многим SRE-инженерам. Без рабочего post-mortem процесса инциденты повторяются в 60% случаев. Мы помогаем внедрить blameless post-mortem культуру, чтобы такие ошибки не повторялись.

Key principle: blameless post-mortem culture — не про поиск виновных, а про улучшение системы. Наш опыт: без post-mortem инциденты повторяются в 60% случаев; с post-mortem — менее 20%. Время на расследование сокращается на 30–50%. Снижение SEV1 достигает 60% за полгода.

Почему важен blameless post-mortem?

Blameless — не про поиск виноватых. Если инженер допустил ошибку, причина — в системе, которая позволила эту ошибку совершить без защитных механизмов. Правильный подход — спросить, почему система позволила ошибке произойти, а не кто нажал не ту кнопку. Культура blame приводит к сокрытию инцидентов и нежеланию признавать ошибки — это хуже самого инцидента. Мы предлагаем готовый шаблон и процесс, который встраивается в вашу incident management систему.

Когда и как проводить post-mortem

Определение инцидентов для разбора

SEV1 инциденты — всегда, в течение 48 часов
SEV2 инциденты — всегда, в течение 72 часов
SEV3 — по решению команды, если инцидент выявил системную проблему
Повторяющиеся SEV4 — стоит провести, если один и тот же симптом третий раз

Структура post-mortem документа

Каждый документ содержит хронологию, корневую причину, что пошло не так, что сработало хорошо, и action items. Пример хронологии:

Время	Событие
14:23	PagerDuty алерт: error rate > 5% на payment service
14:28	Инженер принял алерт, начал расследование
14:35	Обнаружено: БД не принимает новые подключения
14:42	Выявлена причина: connection pool исчерпан
14:55	Применено временное решение: restart connection pool manager
15:10	Сервис восстановлен, ошибки ушли

Ход встречи

Участники: все, кто участвовал в ответе на инцидент + технический лид + при необходимости product owner. Длительность: 60-90 минут. Этапы: обзор хронологии (10 мин), анализ корневых причин (20-30 мин) с помощью техники 5 Why, обсуждение улучшений (15 мин), что сработало хорошо (5 мин), формирование action items (15 мин) с ответственными и сроками.

Техника 5 Why

Пример: Connection pool исчерпан → почему? число соединений превысило max_client_conn → почему? число воркеров увеличилось при деплое → почему? нет процесса проверки DB-конфига при изменении масштаба → почему? deployment checklist не охватывает зависимости конфигов. Корневая причина: отсутствие процесса проверки конфигурационных зависимостей при деплое.

Категории причин

Документы хранятся с тегами: severity, service, cause-category. Основные категории: Configuration, Deployment, Dependency failure, Capacity, Human error. Ежеквартальный обзор помогает направить инвестиции в надёжность.

Какие результаты дает внедрение?

Сравнение без post-mortem и с post-mortem:

Критерий	Без post-mortem	С post-mortem
Повторяемость инцидентов	Высокая (60% повторяются)	Низкая (менее 20%)
Время на расследование	Большое (нет шаблона)	Сокращается на 30–50%
Ответственность за исправление	Размыта	Закреплена за конкретными людьми
Культура команды	Страх и сокрытие	Прозрачность и доверие

Снижение частоты SEV1 на 60% экономит до $60,000 в год для команды из 10 человек (средний SEV1 инцидент стоит $10,000). Сокращение времени расследования на 30–50% экономит 10+ человеко-часов в неделю.

Как гарантировать выполнение action items?

Post-mortem бесполезен, если action items никто не выполняет. Обязательные условия:

Конкретный ответственный (не «команда», а имя)
Чёткий срок
Тикет в Jira/Linear создаётся сразу на встрече
Обзор выполнения на следующей post-mortem встрече

Для аналитики используйте дашборд с категориями причин, чтобы выявить системные проблемы. Настройка интеграции с PagerDuty помогает автоматизировать сбор метрик.

Процесс внедрения post-mortem

Аудит текущего процесса управления инцидентами и выявление зон роста
Разработка шаблона post-mortem под вашу инфраструктуру и стек
Обучение команды: workshop по blameless культуре и технике 5 Why
Пилотный post-mortem на реальном инциденте с наставничеством
Интеграция с тикет-системой (Jira/Linear) и настройка автоматического сбора метрик
Ежеквартальный обзор результатов и корректировка процесса

Что входит в работу

Готовый шаблон post-mortem документа в Confluence/Notion
Обучение команды (до 2 часов)
Интеграция с Jira/Linear: автоматическое создание action items
Настройка дашборда для аналитики причин
Поддержка в течение месяца после внедрения

Сроки ориентировочно

Базовое внедрение: от 3 до 5 дней
Полный цикл с обучением и настройкой: от 5 до 10 дней

Стоимость рассчитывается индивидуально. Чтобы получить консультацию и точную оценку, свяжитесь с нами. Закажите пилотный проект — мы проведём анализ одного инцидента и покажем результат.

Техническая поддержка сайта: обновления, мониторинг, SLA

Сайт на Laravel 8 с PHP 7.4. PHP 7.4 больше не поддерживается, Laravel 8 — тоже не получает обновлений безопасности. Хостинг-провайдер предупредил об обязательном обновлении PHP до 8.1 — после обновления два плагина и одна библиотека сломались, сайт упал. Мы регулярно сталкиваемся с такими сценариями: проект без регулярного ТО превращает каждое обновление окружения в аварию.

Этот кейс — не исключение, а правило. Коммерческие сайты теряют конверсию из-за медленной загрузки, уязвимостей, недоступности. Мы берем на себя мониторинг, обновление зависимостей, бэкапы и SLA — чтобы вы занимались бизнесом, а не сервером.

Без системной поддержки каждое обновление окружения становится сюрпризом: ломаются зависимости, падает производительность, появляются дыры безопасности. Техническая поддержка сайта — это страховка от таких сюрпризов и гарантия стабильной работы.

Что реально входит в техническую поддержку сайта?

Поддержка — не «ответить на звонок, когда что-то сломалось». Это систематическое предотвращение поломок.

Обновление зависимостей. Composer packages, npm packages, CMS или фреймворк. composer audit и npm audit показывают известные уязвимости. Dependabot или Renovate создают автоматические PR — задача поддержки проверить, что обновление не сломало staging, и смержить.

Обновления бывают: patch (1.2.3 → 1.2.4, только bugfix, безопасно), minor (1.2.0 → 1.3.0, новые фичи с обратной совместимостью, обычно безопасно), major (1.x → 2.x, ломающие изменения, требуют тестирования). Игнорировать обновления 6+ месяцев — накопить техдолг: разрыв больше, работы больше.

WordPress — отдельный разговор. Популярность платформы делает её главной целью атак. Устаревшие плагины — вектор №1 взломов. Регулярные обновления ядра, плагинов, тем + правильные разрешения файловой системы + WAF — необходимый минимум. Наш опыт показывает, что автоматические обновления WordPress Core без тестового окружения — риск, который мы не допускаем.

Как мониторинг предотвращает простои?

Uptime мониторинг. Базовый HTTP-чек раз в минуту. Better Uptime, Upptime (self-hosted), Checkly, New Relic Synthetics. Алерт в Telegram или Slack при падении — и оповещение при восстановлении. Если сайт недоступен 10 минут в рабочее время — прямой ущерб.

Производительность. TTFB, LCP, INP — отслеживаем через Google Search Console (реальные пользователи, CrUX) и синтетический мониторинг (Lighthouse CI, SpeedCurve). Деградация часто постепенная — без мониторинга вы замечаете через месяц, когда LCP уже 5s.

Ошибки приложения. Sentry — стандарт для отслеживания JavaScript и PHP/Python ошибок в реальном времени. Каждая необработанная исключение с трассировкой стека, контекстом запроса, версией браузера. Особенно важно для ошибок, которые пользователи не сообщают — они просто уходят.

База данных. Рост объёма, медленные запросы (MySQL slow query log, pg_stat_statements для PostgreSQL), размер индексов. Таблица без VACUUM в PostgreSQL разрастается до гигабайт из-за dead tuples. Рутинное обслуживание БД — часть поддержки.

Дисковое пространство и логи. logrotate настроен? /var/log/nginx растёт без ограничений и заполняет диск — классика. Автоматическая ротация + алерт при disk > 80%.

Почему бэкапы без проверки — иллюзия?

Бэкап без проверки восстановления — не бэкап, а иллюзия безопасности. Видели случаи, когда mysqldump создавал файл 0 байт из-за ошибки прав, а никто не проверял содержимое месяцами. Мы гарантируем, что все копии работоспособны.

Схема бэкапов:

Ежедневный инкрементальный бэкап базы данных + медиафайлы
Еженедельный полный бэкап
Хранение: минимум 3 копии, 2 разных медиа, 1 offsite (S3, Backblaze B2)
Автоматическая проверка целостности (pg_restore --list, mysqldump verify)
Тестовое восстановление раз в квартал в изолированное окружение

Retention политика: 7 ежедневных, 4 еженедельных, 3 ежемесячных. S3 Lifecycle rules автоматизируют удаление.

SLA: что это значит на практике

SLA (Service-Level Agreement) Wikipedia — конкретные обязательства по времени реакции и восстановления:

Приоритет	Ситуация	Время реакции	Время решения
Критический	Сайт недоступен	30 мин	4 часа
Высокий	Ключевая функция не работает	2 часа	8 часов
Средний	Ошибки отдельных страниц	4 часа	24 часа
Низкий	Косметические правки	24 часа	72 часа

SLA имеет смысл только при наличии мониторинга — иначе о проблемах узнают от пользователей, а не от систем. Нерабочая кнопка в форме может незаметно убивать конверсию неделями.

Процесс обновления контента

Разработчик не должен быть в цепочке для правки текста на странице. CMS с удобным редактором, разграничение прав (редактор правит контент, не трогает код), история изменений. Для Laravel-проектов — Nova, Filament, или headless CMS (Strapi, Contentful) в зависимости от сложности.

Preview перед публикацией, staged rollout для важных изменений. Если редакторы работают напрямую с prod — это риск.

Типичные ситуации, которые решаем

Взлом сайта: анализ вектора атаки, очистка, усиление безопасности (WAF, fail2ban, ограничение прав файловой системы). Восстановление из бэкапа занимает часы, а не дни — если бэкапы настроены правильно. Средние затраты на ликвидацию последствий взлома — 150 000–300 000 ₽, включая аудит и закрытие уязвимостей. Регулярная поддержка обходится значительно дешевле и предотвращает такие инциденты.

Падение производительности после обновления: feature flag + возможность быстрого rollback. Canary деплой — обновляем 5% трафика, смотрим метрики, потом 100%.

Чек-лист действий при подозрении на взлом

Отключить сайт (заглушка maintenance mode).
Снять дамп базы данных и файлов для расследования.
Проанализировать логи доступа и ошибок.
Восстановить из последнего рабочего бэкапа.
Обновить все пароли, ключи API.
Установить WAF и fail2ban.
Провести аудит файловой системы на наличие скрытых скриптов.

Что входит в пакет поддержки (deliverables)

При заключении договора вы получаете:

Документация: схема инфраструктуры, доступы, процедуры восстановления
Мониторинг: uptime, производительность, ошибки, логи — настроенный с первого дня
Резервное копирование: ежедневные/еженедельные копии с проверкой
Обновление зависимостей: ежемесячный аудит и обновление с тестированием
SLA-реагирование: по приоритетам из таблицы выше
Отчёты: еженедельные дашборды, ежемесячный обзор, квартальный техплан
Поддержка редактирования контента: обучение редакторов, настройка прав

Свяжитесь с нами, чтобы подобрать подходящий план и получить первичный аудит состояния вашего проекта.

Как мы работаем: этапы

Онбординг (3–5 дней): аудит текущего состояния, настройка мониторинга и бэкапов, документирование инфраструктуры.
Регулярный ритм: еженедельный отчёт по метрикам, ежемесячный обзор обновлений, квартальный технический аудит.
Реагирование: по SLA, с фиксацией причины и времени решения.
Развитие: по вашему запросу — новый функционал, оптимизация, рефакторинг.

Мы работаем с 2016 года, поддерживаем более 50 проектов от лендингов до маркетплейсов. Наши клиенты экономят от 50 000 ₽ в месяц за счёт превентивных мер.

Сроки и стоимость

Настройка мониторинга и бэкапов: 3–5 дней. Регулярная поддержка — ongoing контракт с фиксированным объёмом часов в месяц или абонемент. Стоимость рассчитывается индивидуально после аудита. Получите консультацию — оценим ваш проект за 1–2 дня.

Сравнение: мониторинг с автоматическим алертингом vs ручная проверка

Параметр	Автоматический мониторинг	Ручная проверка
Реакция на сбой	1–5 минут	30+ минут
Обнаружение деградации LCP	каждый час	раз в день
Риск пропуска ошибки	<1%	~30%
Время на настройку	2–3 дня	постоянно

Автоматический мониторинг Better Uptime в 10 раз быстрее реагирует на сбои, чем ручная проверка.