Що таке SEV1 інцидент?

SEV1 (Severity 1) — це інцидент, при якому сервіс повністю недоступний для всіх користувачів. Вимагає негайної реакції, RTO (час відновлення) не більше 30 хвилин. Приклад: сайт повертає 503 помилку для всіх запитів.

Як часто потрібно проводити post-mortem?

Post-mortem проводиться протягом 48 годин після закриття інциденту. Обов'язковий для SEV1-2, для SEV3-4 — за бажанням команди. Включає аналіз причин, хронологію подій та план запобігання.

Які інструменти використовуються для on-call?

Основні інструменти: PagerDuty, OpsGenie, Grafana On-Call. Вони налаштовують ротацію чергових, надсилають алерти через SMS/дзвінок, ескалюють за відсутності відповіді. Інтеграція з Jira та Slack автоматизує створення тікетів.

Скільки часу займає впровадження процесу?

Базове впровадження займає 2-3 тижні: визначення severity matrix, налаштування PagerDuty, інтеграція Slack, створення runbooks для топ-10 алертів та навчання команди. Повноцінне впровадження з кастомізацією — до 6 тижнів.

Як навчити команду працювати за новим процесом?

Проводимо 2-3 drill-сесії (симуляції інцидентів) за участю всієї команди. Розбираємо реальні кейси, використовуємо шаблони комунікації. Після кожного drill — ретроспектива. Результат: команда діє за процесом без зайвих питань.

Що таке SEV1 інцидент?

SEV1 (Severity 1) — це інцидент, при якому сервіс повністю недоступний для всіх користувачів. Вимагає негайної реакції, RTO (час відновлення) не більше 30 хвилин. Приклад: сайт повертає 503 помилку для всіх запитів.

Як часто потрібно проводити post-mortem?

Post-mortem проводиться протягом 48 годин після закриття інциденту. Обов'язковий для SEV1-2, для SEV3-4 — за бажанням команди. Включає аналіз причин, хронологію подій та план запобігання.

Які інструменти використовуються для on-call?

Основні інструменти: PagerDuty, OpsGenie, Grafana On-Call. Вони налаштовують ротацію чергових, надсилають алерти через SMS/дзвінок, ескалюють за відсутності відповіді. Інтеграція з Jira та Slack автоматизує створення тікетів.

Скільки часу займає впровадження процесу?

Базове впровадження займає 2-3 тижні: визначення severity matrix, налаштування PagerDuty, інтеграція Slack, створення runbooks для топ-10 алертів та навчання команди. Повноцінне впровадження з кастомізацією — до 6 тижнів.

Як навчити команду працювати за новим процесом?

Проводимо 2-3 drill-сесії (симуляції інцидентів) за участю всієї команди. Розбираємо реальні кейси, використовуємо шаблони комунікації. Після кожного drill — ретроспектива. Результат: команда діє за процесом без зайвих питань.

Впровадження Incident Management для веб-додатку

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Впровадження Incident Management для веб-додатку

Середній

~3-5 днів

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка веб-додатків для компанії Enviok
929
Розробка веб-сайту для компанії ФІКСПЕР
947

Показати більше робіт

Після чергового збою продакшну команда витратила 4 години на з'ясування, хто відповідальний, і ще 2 на відновлення. Без чіткого процесу кожен інцидент — стрес, втрачені гроші та удар по репутації. Ми впроваджуємо процес управління інцидентами, який перетворює хаос на передбачувану реакцію. Інструменти (PagerDuty, OpsGenie, Jira) без процесу — просто джерела шуму, а процес без інструментів — хаос у месенджерах. Наш досвід 5+ років показує, що правильно налаштований Incident Management скорочує середній час відновлення (MTTR) у 2–3 рази. Наприклад, після впровадження для фінтех-стартапу MTTR впав з 2 годин до 25 хвилин, а кількість інцидентів SEV1 скоротилася вдвічі. «Автоматизований incident management скорочує витрати на інциденти на 30%» — звіт Gartner 2023.

Що таке управління інцидентами?

Управління інцидентами — це набір процедур та інструментів для швидкого виявлення, реагування та усунення збоїв, що широко застосовується в DevOps та SRE-практиках. Ключова мета — мінімізувати час простою та вплив на користувачів. Процес включає чітку SEV1 SEV2 класифікацію інцидентів за severity, призначення ролей, автоматизовані сповіщення та обов'язковий постмортем аналіз для запобігання повторенню. Без такого процесу кожна аварія — це хаос і втрата часу.

Які ролі потрібні в Incident Management?

Incident Commander (IC). Координує відповідь, приймає рішення, не копається в коді. Один на інцидент.
Technical Lead. Керує розслідуванням та усуненням. Може бути кілька при широкому інциденті.
Communications Lead. Оновлює Status Page, відповідає на питання бізнесу, пише оновлення в Slack-канал інциденту.

Розділення ролей критичне: одна людина не може одночасно дебажити та відповідати на питання CEO.

Як виглядає життєвий цикл інциденту?

Detection → Triage → Escalation → Response → Resolution → Post-mortem

Detection: Alertmanager / PagerDuty виявляє аномалію та нотифікує чергового. Без автоматизації цей етап може зайняти до 30 хвилин — з нею скорочується до 2-3 хвилин.

Triage (5-10 хвилин): Черговий оцінює severity, створює інцидент-тікет, відкриває Slack-канал #incident-YYYY-MM-DD-brief-description.

Escalation: Для SEV1-2 — негайне залучення IC та додаткових інженерів. On-call rotation визначає, хто чергує другим рівнем.

Response: Робота ведеться в dedicated Slack-каналі. Оновлення — кожні 20-30 хвилин. Всі значущі дії логуються в тред інциденту (хто, що, коли).

Resolution: Сервіс відновлено, користувачів повідомлено, інцидент закрито.

Post-mortem: Протягом 48 годин. Аналізуємо кореневу причину, хронологію, вживаємо заходів для запобігання повторенню.

Щоб створювати ефективні runbook для алертів, дотримуйтесь цих кроків:

Визначте симптом алерту (наприклад, збільшення часу відповіді API).
Опишіть ймовірні причини (наприклад, падіння інстансу бази даних).
Зафіксуйте покрокову діагностику — команди, скрипти, запити.
Вкажіть дії з відновлення (перезапуск, rollback, масштабування).
Додайте контакти для ескалації та посилання на документацію.

Автоматизація прискорює реагування

Порівняйте ручний та автоматизований процес:

Етап	Ручний (без інструментів)	Автоматизований (з PagerDuty+Slack)
Виявлення	Користувач повідомляє	Alertmanager за 1 хв
Сповіщення	Дзвінки/чати	PagerDuty з ескалацією за 1 хв
Створення каналу	Вручну через 10 хв	Бот створює за 10 сек
Runbook	Шукати в wiki	Пряме посилання в алерті

Автоматизований процес реагує в 5 разів швидше за ручний, за даними з нашої практики. Це скорочує MTTD на 40% і MTTA на 60%. Економія часу на реагування дозволяє знизити операційні витрати та швидше відновлювати сервіс.

Приклад класифікації інцидентів за severity:

Рівень	Опис	Цільовий час реакції
SEV1	Сервіс повністю недоступний	15 хвилин
SEV2	Значна деградація функціональності	30 хвилин
SEV3	Незначні проблеми, немає впливу на ключові функції	4 години
SEV4	Косметичні баги, запити на покращення	Наступний реліз

Що входить в нашу роботу «під ключ»

Аудит поточного стану: аналіз алертів, оцінка зрілості процесів.
Розробка severity matrix та схеми ескалації під ваш продукт.
Налаштування PagerDuty/OpsGenie: on-call calendar, правила ескалації, шаблони сповіщень.
Інтеграція Slack/Teams: автоматичне створення каналів інцидентів, posting шаблонів.
Створення runbooks для топ-15 алертів з покроковими інструкціями.
Навчання команди: 2 drill-сесії, шаблони комунікації, розбір реальних кейсів.
Надання дашборду з метриками MTTD, MTTA, MTTR.

Оцінимо ваш проект безкоштовно — пишіть на пошту або в Telegram.

Інструменти та приклади

Приклад Slack-бота на Python для створення інциденту

# /incident create sev=1 "Payment system down"
@app.command("/incident")
def create_incident(ack, command, client):
    ack()
    severity = parse_severity(command["text"])
    title = parse_title(command["text"])
    
    channel = client.conversations_create(
        name=f"incident-{date.today()}-{slugify(title)}"
    )
    
    client.chat_postMessage(
        channel=channel["channel"]["id"],
        text=INCIDENT_TEMPLATE.format(
            severity=severity,
            title=title,
            commander=command["user_id"],
            started_at=datetime.now().isoformat()
        )
    )
    
    # Оновити Status Page
    update_status_page(severity, title)
    
    # PagerDuty: створити інцидент
    pagerduty.create_incident(severity, title)

Slack/Teams-інтеграція. Бот автоматично створює канал інциденту, запрошує потрібних учасників, постить шаблон інцидент-тікета.

Runbooks. Кожен алерт посилається на конкретний runbook у Confluence/Notion: що робити при цій помилці, які команди виконати, кого викликати.

Shared terminal (tmux/screen): При віддаленій роботі — tmate або Teleport для спільного доступу до консолі без передачі credentials.

Метрики та строки впровадження

Ключові метрики MTTD MTTR:

MTTD (Mean Time to Detect) — <5 хв для SEV1
MTTA (Mean Time to Acknowledge) — <2 хв для SEV1
MTTR (Mean Time to Resolve) — <30 хв для SEV1
Incident Frequency — аналіз трендів для проактивних покращень

Строки впровадження:

Визначення процесу + ролей + severity matrix — 2–3 дні
Налаштування PagerDuty/OpsGenie + on-call rotation — 1–2 дні
Slack-інтеграція + шаблони — 1–2 дні
Runbooks для топ-10 алертів — 3–5 днів
Навчання команди + пробний drill — 1 день

Ми виконали вже понад 20 проектів з incident management, гарантуємо якість та сертифіковану підтримку. Зв'яжіться з нами, щоб отримати індивідуальну оцінку вашого проекту.

Ми регулярно стикаємося з ситуацією: «Сайт не відкривається» о 3 годині ночі — і виявляється, що disk full на VPS, тому що логи nginx не ротувалися півроку. Або сервер ліг під навантаженням у день запуску рекламної кампанії, тому що на shared хостингу стояв ліміт у 50 одночасних з'єднань. Налаштування хостингу та деплою — це не про «де дешевше», це про те, що відбувається в момент, коли щось іде не так. Наша команда допомагає уникнути таких інцидентів, проектуючи інфраструктуру з урахуванням реальних патернів навантаження.

Коли обирати Vercel та Netlify?

Vercel створений під Next.js — деплой в один push, preview deployments для кожного PR, автоматичний CDN, Edge Functions, ISR без конфігурації. Для фронтенд-проєктів та JAMstack це оптимальний вибір: немає операційного навантаження, time-to-deploy вимірюється хвилинами.

Обмеження реальні: Vercel Serverless Functions запускаються в us-east-1 за замовчуванням (latency для Європи +80–100ms), Function timeout 300 секунд на Pro, Bandwidth 1TB/місяць на Pro. Для важкого backend — потрібні воркери або окремий сервер.

Netlify ближчий до статики та Edge Functions на базі Deno Deploy. Build minutes — основне обмеження на безкоштовному тарифі.

Критерій	Vercel	Netlify
Основна спеціалізація	Next.js, фреймворки	Статика, JAMstack
Edge Functions	V8 isolates (Node.js)	Deno Deploy
Preview Deployments	Вбудовані	Вбудовані
Serverless Functions	Так, обмеження 300s	Так, обмеження 10s
Безкоштовний ліміт bandwidth	100 GB	100 GB

Чому Docker — основа передбачуваного деплою?

«Працює на моїй машині» — класика. Docker вирішує це через контейнеризацію середовища. Але поганий Dockerfile створює нові проблеми.

Типова помилка: копіювати все в образ без .dockerignore, отримувати 800MB образ замість 80MB. node_modules всередині образу важить стільки ж. Правильно: multi-stage build.

FROM node:20-alpine AS builder
WORKDIR /app
COPY package*.json ./
RUN npm ci --only=production
COPY . .
RUN npm run build

FROM node:20-alpine AS runner
WORKDIR /app
COPY --from=builder /app/.next ./.next
COPY --from=builder /app/node_modules ./node_modules
COPY --from=builder /app/package.json ./package.json
EXPOSE 3000
CMD ["npm", "start"]

Підсумковий образ: 180MB замість 1.2GB. Час збірки CI скорочується через layer caching — якщо package.json не змінився, шар з npm ci береться з кешу.

Docker Compose для локальної розробки та простих продакшн-сценаріїв: застосунок + PostgreSQL + Redis в одній конфігурації. Для production на одному сервері — цілком робочий варіант, якщо немає вимог горизонтального масштабування.

Детальніше про контейнеризацію — Wikipedia: Docker.

Як налаштувати Nginx як reverse proxy?

Nginx перед застосунком — стандарт для VPS та виділених серверів. Основні функції: SSL termination, gzip, static files, rate limiting, upstream балансування.

Конфігурація, яку часто роблять неправильно: worker_processes auto — кількість процесів дорівнює числу CPU. worker_connections 1024 — це 1024 на кожний воркер-процес. При 4 CPU та 1024 connections = 4096 одночасних з'єднань. Для високонавантаженого сайту потрібно worker_connections 4096 та налаштування keepalive_timeout 65.

Для статичних ассетів з хешем в імені файлу:

location ~* \.(js|css|woff2|png|webp)$ {
    expires 1y;
    add_header Cache-Control "public, immutable";
}

immutable повідомляє браузеру: не перевіряй цей файл навіть при hard refresh. Правильно працює лише з content-hashed іменами файлів (що робить Vite/webpack за замовчуванням). Документація — Wikipedia: Nginx.

AWS: гнучкість та складність

EC2 + Auto Scaling Group — класика для горизонтального масштабування. AMI з попередньо встановленим застосунком, Launch Template, ASG з min/desired/max instances, Application Load Balancer. При CPU > 70% на 3 хвилини — scale out, при CPU < 30% на 15 хвилин — scale in. Health check через ALB виключає нездорові інстанси з ротації.

ECS Fargate — контейнери без управління EC2. Деплой Docker-образу, задаєте CPU/пам'ять (512 CPU units = 0.5 vCPU, від 512MB пам'яті), Fargate запускає. Дорожче Lambda, але немає cold start та немає timeout-обмежень. Підходить для long-running процесів, WebSocket-серверів, важких воркерів.

RDS для PostgreSQL з Multi-AZ: автоматичний failover за 1–2 хвилини при падінні primary. Read Replicas для масштабування читання. RDS Proxy для connection pooling — Lambda-функції не вміють тримати довгострокові з'єднання, проксі буферизує це.

Kubernetes: коли це виправдано

K8s додає значну операційну складність. Виправданий, коли: кілька команд деплоять незалежні сервіси, потрібне тонке налаштування ресурсів на сервіс, canary deployments та blue/green без простою — вимога.

AWS EKS, GKE або managed k8s від Hetzner (дешевше). Helm charts для стандартних сервісів. Horizontal Pod Autoscaler по CPU та custom metrics (RPS через Prometheus).

Для більшості стартапів та середніх проєктів — Kubernetes надмірний. ECS або Fly.io дають 80% можливостей при 20% операційної складності.

Моніторинг та alerting

Сервер без моніторингу — це очікування інциденту. Мінімальний стек: Prometheus + Grafana (або Grafana Cloud для managed), alerting на disk > 80%, memory > 85%, CPU > 90% за 5 хвилин, error rate > 1%. Uptime через Better Uptime або Upptime (self-hosted).

Logs: Loki + Grafana або CloudWatch Logs Insights. Структуровані JSON-логи (winston, pino) — обов'язково, інакше пошук по логах перетворюється на біль.

Що входить у налаштування хостингу

Аудит поточної інфраструктури та профілювання навантаження
Вибір цільової архітектури (VPS, AWS, serverless, Kubernetes)
Налаштування CI/CD pipeline (GitHub Actions, GitLab CI) з автоматичним деплоєм
IaC через Terraform або Pulumi (інфраструктура як код)
Конфігурація Nginx, SSL-сертифікати, HTTP/2, brotli
Моніторинг та алертинг (Prometheus + Grafana, PagerDuty)
Документація runbooks та навчання команди

Додатково: пишіть, якщо потрібна міграція з поточного хостингу або інтеграція із зовнішніми сервісами.

Процес роботи

Аудит поточної інфраструктури (2–5 днів)
Вибір цільової архітектури з обґрунтуванням за навантаженням та бюджетом (1–3 дні)
Налаштування CI/CD pipeline (GitHub Actions, GitLab CI) (2–5 днів)
IaC через Terraform або Pulumi (3–10 днів)
Налаштування моніторингу та alerting (2–5 днів)
Документація runbooks та навчання команди (1–3 дні)

Наш досвід — 7 років на ринку, понад 50 проєктів, гарантія працездатності після деплою.

Терміни

Базовий деплой на VPS з Docker + Nginx + CI/CD: 1–2 тижні.
Налаштування AWS інфраструктури з Auto Scaling, RDS, CDN: 3–6 тижнів.
Міграція на EKS з нуля: 6–12 тижнів.
Налаштування Vercel/Netlify для JAMstack: 3–5 днів.

Вартість розраховується індивідуально залежно від складності та обсягу робіт. Отримайте консультацію — оцінимо вашу архітектуру за один день.