Налаштування On-Call ротації для команди підтримки сайту

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.
Розробка та обслуговування будь-яких видів сайтів:
Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Налаштування On-Call ротації для команди підтримки сайту
Середня
~2-3 робочих дні
Часті питання
Наші компетенції:
Етапи розробки
Останні роботи
  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Налаштування On-Call ротації для команди підтримки

On-call ротація — це система, при якій відповідальність за реакцію на інциденти поза робочим часом розподіляється між членами команди по черзі. Без ротації — один дежурний вигорає за місяць. З правильно налаштованою ротацією — навантаження рівномірне, а реакція передбачувана.

Структура on-call схеми

Primary on-call: Перший рівень, отримує всі алерти. Зобов'язаний відповісти протягом 5-15 хвилин.

Secondary on-call (backup): Якщо primary не відповів за 10-15 хвилин — еськалація на secondary. Страховка від недоступності.

Escalation path: Primary → Secondary → Engineering Manager → CTO. Кожен рівень — +10-15 хвилин.

Rotation period: Зазвичай 1 тиждень. Може бути 2 тижні для зрілих команд з низьким alert noise. Менше тижня — занадто часта зміна контексту.

Вимоги до on-call інженера

Бути on-call означає:

  • Доступність за 15 хвилин (не піл години до душу)
  • Ноутбук і VPN-доступ завжди під рукою
  • Тверезість та здатність до технічного мислення
  • Знання runbooks для типових інцидентів

On-call не означає «працювати 24/7». Якщо ночей алертів немає — інженер спить. Мета — бути готовим, а не постійно працювати.

Налаштування в PagerDuty

Service → Escalation Policy:
  Level 1: On-Call schedule (primary)
    - Notify after: immediately
    - Escalate after: 15 minutes
  Level 2: On-Call schedule (secondary)
    - Notify after: escalation
    - Escalate after: 15 minutes
  Level 3: Engineering Manager
    - Notify after: escalation

Schedule (Primary):
  Rotation type: Weekly
  Handoff time: Monday 10:00 local time
  Restrictions: None (24/7 coverage)
  Layer 1: [Engineer A, Engineer B, Engineer C, Engineer D]

Handoff у робочий час (не в 00:00) — інженер приймає зміну в спокійній обстановці, вивчає відкриті інциденти.

Компенсація за on-call дежурство

On-call — це додаткове навантаження, яке має компенсуватися:

  • Грошова надбавка за дежурну тиждень
  • Відгул після важкої неділі з ночами інцидентів
  • Компенсація за кожен ночей виклик (якщо їх було багато)

Команда без компенсації — команда, яка саботує дежурство або уходить.

Зниження alert fatigue

On-call працює тільки якщо алерти значимі. Якщо за дежурну тиждень приходить 50 алертів, з яких 45 — шум, через місяць команда перестає реагувати.

Інструменти боротьби з noise:

  • Alert grouping: кілька пов'язаних алертів → один інцидент
  • Smart notifications: різні канали для дня (Slack) та ночі (звонок)
  • Alert review: щотижневий перегляд сработавших алертів, відключення хибних
  • SLO-based alerting: алерти на burn rate, а не на порогові значення

Handoff процедура

Кожну зміну — передача контексту:

  • Список відкритих/недавніх інцидентів
  • Що з інфраструктури нестабільно прямо зараз
  • Запланована змінення на цьому тижні (деплої, міграції)
  • «Гарячі» місця, які вимагають уваги

Шаблон handoff-замітки в Slack/Confluence, заповнюваної уходящим дежурним.

Метрики on-call здоров'я

  • Incidents per week per engineer — якщо > 5, потрібно знижувати alarm noise
  • After-hours incidents % — скільки інцидентів відбувається ночами/на вихідних
  • MTTA (Mean Time to Acknowledge) — якщо > 15 хвилин, escalation policy слабка
  • Fatigue score — суб'єктивна оцінка навантаження від кожного дежурного

Терміни налаштування

  • PagerDuty/OpsGenie + schedules + escalation policy — 1-2 дня
  • Інтеграція з Prometheus/Datadog алертами — 1-2 дня
  • Налаштування каналів нотифікації (Slack, звонок, SMS) — 1 день
  • Документація процесу + навчання команди — 1-2 дня