Що таке post-mortem?

Post-mortem — це структурований аналіз інциденту після його усунення. Мета — виявити кореневі причини та запобігти повторенню. На відміну від пошуку винних, blameless post-mortem фокусується на системних недоліках.

Як часто потрібно проводити post-mortem?

SEV1 та SEV2 інциденти розбираються завжди: SEV1 — протягом 48 годин, SEV2 — 72 години. SEV3 — за рішенням команди, якщо інцидент виявив системну проблему. Повторювані SEV4 також варто розібрати.

Хто має брати участь у post-mortem зустрічі?

Всі учасники реагування на інцидент, технічний лідер та за потреби product owner. Зустріч триває 60-90 хвилин. Якщо потрібно більше — проблема в підготовці документа.

Які категорії причин інцидентів виділяють?

Основні категорії: Configuration (неправильний конфіг), Deployment (проблема при деплої), Dependency failure (сторонній сервіс), Capacity (нестача ресурсів), Human error (помилкова дія). Щоквартальний огляд допомагає спрямувати інвестиції в надійність.

Що таке post-mortem?

Post-mortem — це структурований аналіз інциденту після його усунення. Мета — виявити кореневі причини та запобігти повторенню. На відміну від пошуку винних, blameless post-mortem фокусується на системних недоліках.

Як часто потрібно проводити post-mortem?

SEV1 та SEV2 інциденти розбираються завжди: SEV1 — протягом 48 годин, SEV2 — 72 години. SEV3 — за рішенням команди, якщо інцидент виявив системну проблему. Повторювані SEV4 також варто розібрати.

Хто має брати участь у post-mortem зустрічі?

Всі учасники реагування на інцидент, технічний лідер та за потреби product owner. Зустріч триває 60-90 хвилин. Якщо потрібно більше — проблема в підготовці документа.

Які категорії причин інцидентів виділяють?

Основні категорії: Configuration (неправильний конфіг), Deployment (проблема при деплої), Dependency failure (сторонній сервіс), Capacity (нестача ресурсів), Human error (помилкова дія). Щоквартальний огляд допомагає спрямувати інвестиції в надійність.

Налаштування Post-Mortem процесу для аналізу інцидентів

Q: Як гарантувати виконання action items?

Призначайте конкретного відповідального (не команду, а ім'я), встановлюйте чіткий термін, створюйте тікет у Jira/Linear одразу на зустрічі. Обов'язково перевіряйте виконання на наступному post-mortem.

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Налаштування Post-Mortem процесу для аналізу інцидентів

Середній

~2-3 дні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1250
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка веб-додатків для компанії Enviok
929
Розробка веб-сайту для компанії ФІКСПЕР
947

Показати більше робіт

Ситуація: у п'ятницю ввечері падає payment service, error rate > 5%, 12 000 користувачів не можуть завершити оплату. Команда гасить пожежу 47 хвилин. Причина — connection pool вичерпано, тому що при деплої збільшили кількість воркерів, але забули оновити конфіг pgBouncer. Через місяць — той самий симптом. Ця ситуація знайома багатьом SRE-інженерам. Без робочого post-mortem процесу інциденти повторюються в 60% випадків. Ми допомагаємо впровадити blameless post-mortem культуру, щоб такі помилки не повторювалися.

Key principle: blameless post-mortem culture — не про пошук винних, а про покращення системи. Наш досвід: без post-mortem інциденти повторюються в 60% випадків; з post-mortem — менше 20%. Час на розслідування скорочується на 30–50%. Зниження SEV1 досягає 60% за півроку.

Чому важливий blameless post-mortem?

Blameless — не про пошук винних. Якщо інженер припустився помилки, причина — в системі, яка дозволила цю помилку скоїти без захисних механізмів. Правильний підхід — запитати, чому система дозволила помилці статися, а не хто натиснув не ту кнопку. Культура blame призводить до приховування інцидентів і небажання визнавати помилки — це гірше самого інциденту. Ми пропонуємо готовий шаблон і процес, який вбудовується у вашу incident management систему.

Коли і як проводити post-mortem

Визначення інцидентів для розбору

SEV1 інциденти — завжди, протягом 48 годин
SEV2 інциденти — завжди, протягом 72 годин
SEV3 — за рішенням команди, якщо інцидент виявив системну проблему
Повторювані SEV4 — варто провести, якщо один і той самий симптом втретє

Структура post-mortem документа

Кожен документ містить хронологію, кореневу причину, що пішло не так, що спрацювало добре, та action items. Приклад хронології:

Час	Подія
14:23	PagerDuty алерт: error rate > 5% на payment service
14:28	Інженер прийняв алерт, почав розслідування
14:35	Виявлено: БД не приймає нові підключення
14:42	Виявлено причину: connection pool вичерпано
14:55	Застосовано тимчасове рішення: restart connection pool manager
15:10	Сервіс відновлено, помилки зникли

Хід зустрічі

Учасники: всі, хто брав участь у відповіді на інцидент + технічний лідер + за потреби product owner. Тривалість: 60-90 хвилин. Етапи: огляд хронології (10 хв), аналіз кореневих причин (20-30 хв) за допомогою техніки 5 Why, обговорення покращень (15 хв), що спрацювало добре (5 хв), формування action items (15 хв) з відповідальними та термінами.

Техніка 5 Why

Приклад: Connection pool вичерпано → чому? кількість з'єднань перевищила max_client_conn → чому? кількість воркерів збільшилася при деплої → чому? немає процесу перевірки DB-конфігу при зміні масштабу → чому? deployment checklist не охоплює залежності конфігів. Коренева причина: відсутність процесу перевірки конфігураційних залежностей при деплої.

Категорії причин

Документи зберігаються з тегами: severity, service, cause-category. Основні категорії: Configuration, Deployment, Dependency failure, Capacity, Human error. Щоквартальний огляд допомагає спрямувати інвестиції в надійність.

Які результати дає впровадження?

Порівняння без post-mortem і з post-mortem:

Критерій	Без post-mortem	З post-mortem
Повторюваність інцидентів	Висока (60% повторюються)	Низька (менше 20%)
Час на розслідування	Великий (немає шаблону)	Скорочується на 30–50%
Відповідальність за виправлення	Розмита	Закріплена за конкретними людьми
Культура команди	Страх і приховування	Прозорість і довіра

Зниження частоти SEV1 на 60% економить до $60,000 на рік для команди з 10 осіб (середній SEV1 інцидент коштує $10,000). Скорочення часу розслідування на 30–50% економить 10+ людино-годин на тиждень.

Як гарантувати виконання action items?

Post-mortem марний, якщо action items ніхто не виконує. Обов'язкові умови:

Конкретний відповідальний (не «команда», а ім'я)
Чіткий термін
Тікет у Jira/Linear створюється одразу на зустрічі
Огляд виконання на наступній post-mortem зустрічі

Для аналітики використовуйте дашборд з категоріями причин, щоб виявити системні проблеми. Налаштування інтеграції з PagerDuty допомагає автоматизувати збір метрик.

Процес впровадження post-mortem

Аудит поточного процесу управління інцидентами та виявлення зон росту
Розробка шаблону post-mortem під вашу інфраструктуру та стек
Навчання команди: workshop з blameless культури та техніки 5 Why
Пілотний post-mortem на реальному інциденті з наставництвом
Інтеграція з тікет-системою (Jira/Linear) та налаштування автоматичного збору метрик
Щоквартальний огляд результатів та коригування процесу

Що входить в роботу

Готовий шаблон post-mortem документа в Confluence/Notion
Навчання команди (до 2 годин)
Інтеграція з Jira/Linear: автоматичне створення action items
Налаштування дашборду для аналітики причин
Підтримка протягом місяця після впровадження

Терміни орієнтовно

Базове впровадження: від 3 до 5 днів
Повний цикл з навчанням та налаштуванням: від 5 до 10 днів

Вартість розраховується індивідуально. Щоб отримати консультацію та точну оцінку, зв'яжіться з нами. Замовте пілотний проект — ми проведемо аналіз одного інциденту і покажемо результат.

Технічна підтримка сайту: оновлення, моніторинг, SLA

Сайт на Laravel 8 з PHP 7.4. PHP 7.4 більше не підтримується, Laravel 8 — теж не отримує оновлень безпеки. Хостинг-провайдер попередив про обов'язкове оновлення PHP до 8.1 — після оновлення два плагіни та одна бібліотека зламалися, сайт упав. Ми регулярно стикаємося з такими сценаріями: проект без регулярного ТО перетворює кожне оновлення середовища на аварію.

Цей кейс — не виняток, а правило. Комерційні сайти втрачають конверсію через повільне завантаження, вразливості, недоступність. Ми беремо на себе моніторинг, оновлення залежностей, бекапи та SLA — щоб ви займалися бізнесом, а не сервером.

Без системної підтримки кожне оновлення середовища стає сюрпризом: ламаються залежності, падає продуктивність, з'являються діри безпеки. Технічна підтримка сайту — це страховка від таких сюрпризів та гарантія стабільної роботи.

Що реально входить у технічну підтримку сайту?

Підтримка — не «відповісти на дзвінок, коли щось зламалося». Це систематичне запобігання поломкам.

Оновлення залежностей. Composer packages, npm packages, CMS або фреймворк. composer audit та npm audit показують відомі вразливості. Dependabot або Renovate створюють автоматичні PR — завдання підтримки перевірити, що оновлення не зламало staging, і змержити.

Оновлення бувають: patch (1.2.3 → 1.2.4, тільки bugfix, безпечно), minor (1.2.0 → 1.3.0, нові фічі зі зворотною сумісністю, зазвичай безпечно), major (1.x → 2.x, ламаючі зміни, вимагають тестування). Ігнорувати оновлення 6+ місяців — накопичити техборг: розрив більший, роботи більше.

WordPress — окрема розмова. Популярність платформи робить її головною ціллю атак. Застарілі плагіни — вектор №1 зломів. Регулярні оновлення ядра, плагінів, тем + правильні дозволи файлової системи + WAF — необхідний мінімум. Наш досвід показує, що автоматичні оновлення WordPress Core без тестового середовища — ризик, який ми не допускаємо.

Як моніторинг запобігає простоям?

Uptime моніторинг. Базовий HTTP-чек раз на хвилину. Better Uptime, Upptime (self-hosted), Checkly, New Relic Synthetics. Алерт у Telegram або Slack при падінні — і сповіщення при відновленні. Якщо сайт недоступний 10 хвилин у робочий час — прямий збиток.

Продуктивність. TTFB, LCP, INP — відстежуємо через Google Search Console (реальні користувачі, CrUX) та синтетичний моніторинг (Lighthouse CI, SpeedCurve). Деградація часто поступова — без моніторингу ви помічаєте через місяць, коли LCP вже 5s.

Помилки додатку. Sentry — стандарт для відстеження JavaScript та PHP/Python помилок у реальному часі. Кожен необроблений виняток із трасуванням стеку, контекстом запиту, версією браузера. Особливо важливо для помилок, які користувачі не повідомляють — вони просто йдуть.

База даних. Зростання об'єму, повільні запити (MySQL slow query log, pg_stat_statements для PostgreSQL), розмір індексів. Таблиця без VACUUM у PostgreSQL розростається до гігабайт через dead tuples. Рутинне обслуговування БД — частина підтримки.

Дисковий простір та логи. logrotate налаштований? /var/log/nginx росте без обмежень і заповнює диск — класика. Автоматична ротація + алерт при disk > 80%.

Чому бекапи без перевірки — ілюзія?

Бекап без перевірки відновлення — не бекап, а ілюзія безпеки. Бачили випадки, коли mysqldump створював файл 0 байт через помилку прав, а ніхто не перевіряв вміст місяцями. Ми гарантуємо, що всі копії працездатні.

Схема бекапів:

Щоденний інкрементальний бекап бази даних + медіафайли
Щотижневий повний бекап
Зберігання: мінімум 3 копії, 2 різних медіа, 1 offsite (S3, Backblaze B2)
Автоматична перевірка цілісності (pg_restore --list, mysqldump verify)
Тестове відновлення раз на квартал в ізольоване середовище

Retention політика: 7 щоденних, 4 щотижневих, 3 щомісячних. S3 Lifecycle rules автоматизують видалення.

SLA: що це означає на практиці

SLA (Service-Level Agreement) Wikipedia — конкретні зобов'язання щодо часу реакції та відновлення:

Пріоритет	Ситуація	Час реакції	Час вирішення
Критичний	Сайт недоступний	30 хв	4 години
Високий	Ключова функція не працює	2 години	8 годин
Середній	Помилки окремих сторінок	4 години	24 години
Низький	Косметичні правки	24 години	72 години

SLA має сенс тільки за наявності моніторингу — інакше про проблеми дізнаються від користувачів, а не від систем. Неробоча кнопка у формі може непомітно вбивати конверсію тижнями.

Процес оновлення контенту

Розробник не повинен бути в ланцюжку для правки тексту на сторінці. CMS зі зручним редактором, розмежування прав (редактор править контент, не чіпає код), історія змін. Для Laravel-проектів — Nova, Filament, або headless CMS (Strapi, Contentful) залежно від складності.

Preview перед публікацією, staged rollout для важливих змін. Якщо редактори працюють напряму з prod — це ризик.

Типові ситуації, які вирішуємо

Злом сайту: аналіз вектора атаки, очищення, посилення безпеки (WAF, fail2ban, обмеження прав файлової системи). Відновлення з бекапу займає години, а не дні — якщо бекапи налаштовані правильно. Регулярна підтримка запобігає таким інцидентам.

Падіння продуктивності після оновлення: feature flag + можливість швидкого rollback. Canary деплой — оновлюємо 5% трафіку, дивимось метрики, потім 100%.

Чек-лист дій при підозрі на злом

Відключити сайт (заглушка maintenance mode).
Зняти дамп бази даних та файлів для розслідування.
Проаналізувати логи доступу та помилок.
Відновити з останнього робочого бекапу.
Оновити всі паролі, ключі API.
Встановити WAF та fail2ban.
Провести аудит файлової системи на наявність прихованих скриптів.

Що входить у пакет підтримки (deliverables)

При укладенні договору ви отримуєте:

Документація: схема інфраструктури, доступи, процедури відновлення
Моніторинг: uptime, продуктивність, помилки, логи — налаштований з першого дня
Резервне копіювання: щоденні/щотижневі копії з перевіркою
Оновлення залежностей: щомісячний аудит та оновлення з тестуванням
SLA-реагування: за пріоритетами з таблиці вище
Звіти: щотижневі дашборди, щомісячний огляд, квартальний техплан
Підтримка редагування контенту: навчання редакторів, налаштування прав

Зв'яжіться з нами, щоб підібрати відповідний план та отримати первинний аудит стану вашого проекту.

Як ми працюємо: етапи

Онбординг (3–5 днів): аудит поточного стану, налаштування моніторингу та бекапів, документування інфраструктури.
Регулярний ритм: щотижневий звіт за метриками, щомісячний огляд оновлень, квартальний технічний аудит.
Реагування: за SLA, з фіксацією причини та часу вирішення.
Розвиток: за вашим запитом — новий функціонал, оптимізація, рефакторинг.

Ми працюємо з 2016 року, підтримуємо понад 50 проектів від лендінгів до маркетплейсів.

Строки та вартість

Налаштування моніторингу та бекапів: 3–5 днів. Регулярна підтримка — ongoing контракт з фіксованим об'ємом годин на місяць або абонемент. Вартість розраховується індивідуально після аудиту. Отримайте консультацію — оцінимо ваш проект за 1–2 дні.

Порівняння: моніторинг з автоматичним алертингом vs ручна перевірка

Параметр	Автоматичний моніторинг	Ручна перевірка
Реакція на збій	1–5 хвилин	30+ хвилин
Виявлення деградації LCP	щогодини	раз на день
Ризик пропуску помилки	<1%	~30%
Час на налаштування	2–3 дні	постійно

Автоматичний моніторинг Better Uptime в 10 разів швидше реагує на збої, ніж ручна перевірка.