Який період ротації обрати для команди з 4 осіб?

Оптимальна ротація — 1 тиждень. Це баланс між контекстом і навантаженням. Для зрілих команд з низькою кількістю алертів можна 2 тижні. Менше тижня — занадто часта зміна контексту.

Які метрики показують здоров'я on-call системи?

Ключові: incidents per week (норма <5), after-hours %, MTTA (норма <15 хвилин), fatigue score. Високий MTTA — привід посилити escalation policy.

Чи обов'язкова компенсація за чергування?

Так, інакше вигорання та саботаж. Компенсація: грошова надбавка, відгули після важкого тижня, оплата кожного нічного виклику. Без неї команда не тримається.

Що має бути в handoff-замітці?

Список відкритих інцидентів, нестабільні компоненти, заплановані зміни, «гарячі» місця. Той, хто здає чергування, заповнює шаблон у Slack або Confluence.

Який період ротації обрати для команди з 4 осіб?

Оптимальна ротація — 1 тиждень. Це баланс між контекстом і навантаженням. Для зрілих команд з низькою кількістю алертів можна 2 тижні. Менше тижня — занадто часта зміна контексту.

Які метрики показують здоров'я on-call системи?

Ключові: incidents per week (норма <5), after-hours %, MTTA (норма <15 хвилин), fatigue score. Високий MTTA — привід посилити escalation policy.

Чи обов'язкова компенсація за чергування?

Так, інакше вигорання та саботаж. Компенсація: грошова надбавка, відгули після важкого тижня, оплата кожного нічного виклику. Без неї команда не тримається.

Що має бути в handoff-замітці?

Список відкритих інцидентів, нестабільні компоненти, заплановані зміни, «гарячі» місця. Той, хто здає чергування, заповнює шаблон у Slack або Confluence.

Налаштування On-Call ротації для команди підтримки сайту

Q: Що таке alert fatigue і як з ним боротися?

Alert fatigue — ігнорування алертів через їх надлишок. Боротьба: групування алертів, smart-нотифікації (день — Slack, ніч — дзвінок), щотижневий рев’ю та SLO-based alerting.

Q: Чи обов'язкова компенсація за чергування?

Так, інакше вигорання та саботаж. Компенсація: грошова надбавка, відгули після важкого тижня, оплата кожного нічного виклику. Без неї команда не тримається.

Q: Що має бути в handoff-замітці?

Список відкритих інцидентів, нестабільні компоненти, заплановані зміни, «гарячі» місця. Той, хто здає чергування, заповнює шаблон у Slack або Confluence.

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Налаштування On-Call ротації для команди підтримки сайту

Середній

~2-3 дні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1358
Розробка веб-додатків для компанії FEEDME
1250
Розробка веб-сайту для компанії БЕЛФІНГРУП
956
Розробка інтернет магазину для компанії FURNORO
1188
Розробка веб-додатків для компанії Enviok
929
Розробка веб-сайту для компанії ФІКСПЕР
947

Показати більше робіт

Ми зіткнулися з ситуацією: команда підтримки з трьох осіб вигоріла за два місяці через хаотичні нічні виклики. Інциденти накопичувалися, MTTA зріс до години. Рішення — впровадження on-call ротації з чіткими правилами ескалації. За два тижні MTTA знизився до 5 хвилин, а навантаження розподілилося рівномірно. Правильне налаштування окупається за перший місяць, а вартість організації ротації варіюється залежно від обсягу інтеграцій.

Аналіз проблеми: чому команди вигорають на чергуваннях

On-call ротація — це система, при якій відповідальність за реакцію на інциденти поза робочим часом розподіляється між членами команди по черзі. Без ротації — один черговий вигорає за місяць. З правильно налаштованою ротацією — навантаження рівномірне, а реакція передбачувана. Наш досвід показує, що weekly ротація краща за щомісячну в 3 рази за швидкістю відновлення контексту.

Проектування схеми ротації

Як вибрати період ротації?

Період	Утримання контексту	Alert fatigue	Для яких команд
1 тиждень	Високе	Середнє	Більшість (2–6 осіб)
2 тижні	Середнє	Низьке	Зрілі команди з низьким noise
4 тижні	Низьке	Дуже низьке	Великі команди (8+)

Primary on-call: перший рівень, отримує всі алерти. Час реакції — 5-15 хвилин. Secondary on-call (backup): якщо primary не відповів за 10-15 хвилин — ескалація на secondary. Escalation path: Primary → Secondary → Engineering Manager → CTO. Кожен рівень додає 10-15 хвилин.

Інструменти онкол-системи: PagerDuty та альтернативи

Налаштування ескалацій в PagerDuty

Service → Escalation Policy:
  Level 1: On-Call schedule (primary)
    - Notify after: immediately
    - Escalate after: 15 minutes
  Level 2: On-Call schedule (secondary)
    - Notify after: escalation
    - Escalate after: 15 minutes
  Level 3: Engineering Manager
    - Notify after: escalation

Schedule (Primary):
  Rotation type: Weekly
  Handoff time: Monday 10:00 local time
  Restrictions: None (24/7 coverage)
  Layer 1: [Engineer A, Engineer B, Engineer C, Engineer D]

Handoff в робочий час — інженер приймає зміну в спокійній обстановці, вивчає відкриті інциденти.

Інтеграція з моніторингом

Інтегруйте моніторинг (Prometheus, Datadog, Sentry) з PagerDuty через webhook. Налаштуйте smart-нотифікації: вдень Slack, вночі дзвінок. Це знижує alert fatigue і підвищує MTTA.

Впровадження: покрокова інструкція для команди

Визначте розмір команди та години покриття. Для 4 осіб оптимальна тижнева ротація.
Створіть schedule в PagerDuty/OpsGenie: вкажіть учасників, тип ротації (weekly), час handoff (наприклад, понеділок 10:00).
Налаштуйте escalation policy: primary отримує алерт одразу, якщо не відповідає 15 хвилин — secondary, ще 15 хвилин — менеджер.
Налаштуйте канали нотифікації: Slack, дзвінок, SMS.
Проведіть пілотний прогін.

Підготовка runbook і handoff-процедури

Runbook для типових інцидентів прискорює реакцію. Приклад: при 503 — перезапустити Nginx. Handoff-замітка містить: список відкритих інцидентів, нестабільні компоненти, заплановані зміни, «гарячі» місця. Шаблон у Slack або Confluence.

Навчання та пілотний прогін

Проведіть навчання команди по runbook і handoff. Пілотний прогін протягом тижня виявить вузькі місця.

Управління інцидентами: як боротися з alert fatigue

Що таке alert fatigue і як з ним боротися?

On-call працює тільки якщо алерти значущі. Якщо за черговий тиждень приходить 50 алертів, з яких 45 — шум, через місяць команда перестає реагувати. Alert fatigue — головний ворог чергового. Інструменти боротьби: alert grouping, smart-нотифікації, щотижневий рев’ю, SLO-based alerting на burn rate.

Метрики здоров'я онкол-системи

Метрика	Норма	Як покращити
Incidents per week per engineer	<5	Знижувати alarm noise
After-hours incidents %	<30%	Покращувати моніторинг вдень
MTTA	<15 хвилин	Посилити escalation policy
Fatigue score	<3/5	Регулярні рев’ю, компенсація

Компенсація та утримання чергових

On-call — це додаткове навантаження, яке має компенсуватися: грошова надбавка за черговий тиждень, відгул після важкого тижня, компенсація за кожен нічний виклик. Команда без компенсації — команда, яка саботує чергування або йде.

Терміни та що входить у налаштування під ключ

Проектування схеми ротації з урахуванням розміру команди та графіка
Налаштування PagerDuty/OpsGenie: schedules, escalation policies, layers
Інтеграція з моніторингом (Prometheus, Datadog, Sentry)
Конфігурація каналів нотифікації: Slack, дзвінок, SMS
Документація: runbook, handoff шаблон, інструкції для чергових
Навчання команди та пілотний прогін

Джерело: документація PagerDuty

Терміни налаштування

PagerDuty/OpsGenie + schedules + escalation policy — 1-2 дні
Інтеграція з Prometheus/Datadog алертами — 1-2 дні
Налаштування каналів нотифікації (Slack, дзвінок, SMS) — 1 день
Документація процесу + навчання команди — 1-2 дні

Отримайте консультацію щодо впровадження on-call ротації для вашої команди. Зв'яжіться з нами — оцінимо проект і запропонуємо рішення за 2 дні. Замовте налаштування під ключ, і ми гарантуємо зниження MTTA до 5 хвилин.

Технічна підтримка сайту: оновлення, моніторинг, SLA

Сайт на Laravel 8 з PHP 7.4. PHP 7.4 більше не підтримується, Laravel 8 — теж не отримує оновлень безпеки. Хостинг-провайдер попередив про обов'язкове оновлення PHP до 8.1 — після оновлення два плагіни та одна бібліотека зламалися, сайт упав. Ми регулярно стикаємося з такими сценаріями: проект без регулярного ТО перетворює кожне оновлення середовища на аварію.

Цей кейс — не виняток, а правило. Комерційні сайти втрачають конверсію через повільне завантаження, вразливості, недоступність. Ми беремо на себе моніторинг, оновлення залежностей, бекапи та SLA — щоб ви займалися бізнесом, а не сервером.

Без системної підтримки кожне оновлення середовища стає сюрпризом: ламаються залежності, падає продуктивність, з'являються діри безпеки. Технічна підтримка сайту — це страховка від таких сюрпризів та гарантія стабільної роботи.

Що реально входить у технічну підтримку сайту?

Підтримка — не «відповісти на дзвінок, коли щось зламалося». Це систематичне запобігання поломкам.

Оновлення залежностей. Composer packages, npm packages, CMS або фреймворк. composer audit та npm audit показують відомі вразливості. Dependabot або Renovate створюють автоматичні PR — завдання підтримки перевірити, що оновлення не зламало staging, і змержити.

Оновлення бувають: patch (1.2.3 → 1.2.4, тільки bugfix, безпечно), minor (1.2.0 → 1.3.0, нові фічі зі зворотною сумісністю, зазвичай безпечно), major (1.x → 2.x, ламаючі зміни, вимагають тестування). Ігнорувати оновлення 6+ місяців — накопичити техборг: розрив більший, роботи більше.

WordPress — окрема розмова. Популярність платформи робить її головною ціллю атак. Застарілі плагіни — вектор №1 зломів. Регулярні оновлення ядра, плагінів, тем + правильні дозволи файлової системи + WAF — необхідний мінімум. Наш досвід показує, що автоматичні оновлення WordPress Core без тестового середовища — ризик, який ми не допускаємо.

Як моніторинг запобігає простоям?

Uptime моніторинг. Базовий HTTP-чек раз на хвилину. Better Uptime, Upptime (self-hosted), Checkly, New Relic Synthetics. Алерт у Telegram або Slack при падінні — і сповіщення при відновленні. Якщо сайт недоступний 10 хвилин у робочий час — прямий збиток.

Продуктивність. TTFB, LCP, INP — відстежуємо через Google Search Console (реальні користувачі, CrUX) та синтетичний моніторинг (Lighthouse CI, SpeedCurve). Деградація часто поступова — без моніторингу ви помічаєте через місяць, коли LCP вже 5s.

Помилки додатку. Sentry — стандарт для відстеження JavaScript та PHP/Python помилок у реальному часі. Кожен необроблений виняток із трасуванням стеку, контекстом запиту, версією браузера. Особливо важливо для помилок, які користувачі не повідомляють — вони просто йдуть.

База даних. Зростання об'єму, повільні запити (MySQL slow query log, pg_stat_statements для PostgreSQL), розмір індексів. Таблиця без VACUUM у PostgreSQL розростається до гігабайт через dead tuples. Рутинне обслуговування БД — частина підтримки.

Дисковий простір та логи. logrotate налаштований? /var/log/nginx росте без обмежень і заповнює диск — класика. Автоматична ротація + алерт при disk > 80%.

Чому бекапи без перевірки — ілюзія?

Бекап без перевірки відновлення — не бекап, а ілюзія безпеки. Бачили випадки, коли mysqldump створював файл 0 байт через помилку прав, а ніхто не перевіряв вміст місяцями. Ми гарантуємо, що всі копії працездатні.

Схема бекапів:

Щоденний інкрементальний бекап бази даних + медіафайли
Щотижневий повний бекап
Зберігання: мінімум 3 копії, 2 різних медіа, 1 offsite (S3, Backblaze B2)
Автоматична перевірка цілісності (pg_restore --list, mysqldump verify)
Тестове відновлення раз на квартал в ізольоване середовище

Retention політика: 7 щоденних, 4 щотижневих, 3 щомісячних. S3 Lifecycle rules автоматизують видалення.

SLA: що це означає на практиці

SLA (Service-Level Agreement) Wikipedia — конкретні зобов'язання щодо часу реакції та відновлення:

Пріоритет	Ситуація	Час реакції	Час вирішення
Критичний	Сайт недоступний	30 хв	4 години
Високий	Ключова функція не працює	2 години	8 годин
Середній	Помилки окремих сторінок	4 години	24 години
Низький	Косметичні правки	24 години	72 години

SLA має сенс тільки за наявності моніторингу — інакше про проблеми дізнаються від користувачів, а не від систем. Неробоча кнопка у формі може непомітно вбивати конверсію тижнями.

Процес оновлення контенту

Розробник не повинен бути в ланцюжку для правки тексту на сторінці. CMS зі зручним редактором, розмежування прав (редактор править контент, не чіпає код), історія змін. Для Laravel-проектів — Nova, Filament, або headless CMS (Strapi, Contentful) залежно від складності.

Preview перед публікацією, staged rollout для важливих змін. Якщо редактори працюють напряму з prod — це ризик.

Типові ситуації, які вирішуємо

Злом сайту: аналіз вектора атаки, очищення, посилення безпеки (WAF, fail2ban, обмеження прав файлової системи). Відновлення з бекапу займає години, а не дні — якщо бекапи налаштовані правильно. Регулярна підтримка запобігає таким інцидентам.

Падіння продуктивності після оновлення: feature flag + можливість швидкого rollback. Canary деплой — оновлюємо 5% трафіку, дивимось метрики, потім 100%.

Чек-лист дій при підозрі на злом

Відключити сайт (заглушка maintenance mode).
Зняти дамп бази даних та файлів для розслідування.
Проаналізувати логи доступу та помилок.
Відновити з останнього робочого бекапу.
Оновити всі паролі, ключі API.
Встановити WAF та fail2ban.
Провести аудит файлової системи на наявність прихованих скриптів.

Що входить у пакет підтримки (deliverables)

При укладенні договору ви отримуєте:

Документація: схема інфраструктури, доступи, процедури відновлення
Моніторинг: uptime, продуктивність, помилки, логи — налаштований з першого дня
Резервне копіювання: щоденні/щотижневі копії з перевіркою
Оновлення залежностей: щомісячний аудит та оновлення з тестуванням
SLA-реагування: за пріоритетами з таблиці вище
Звіти: щотижневі дашборди, щомісячний огляд, квартальний техплан
Підтримка редагування контенту: навчання редакторів, налаштування прав

Зв'яжіться з нами, щоб підібрати відповідний план та отримати первинний аудит стану вашого проекту.

Як ми працюємо: етапи

Онбординг (3–5 днів): аудит поточного стану, налаштування моніторингу та бекапів, документування інфраструктури.
Регулярний ритм: щотижневий звіт за метриками, щомісячний огляд оновлень, квартальний технічний аудит.
Реагування: за SLA, з фіксацією причини та часу вирішення.
Розвиток: за вашим запитом — новий функціонал, оптимізація, рефакторинг.

Ми працюємо з 2016 року, підтримуємо понад 50 проектів від лендінгів до маркетплейсів.

Строки та вартість

Налаштування моніторингу та бекапів: 3–5 днів. Регулярна підтримка — ongoing контракт з фіксованим об'ємом годин на місяць або абонемент. Вартість розраховується індивідуально після аудиту. Отримайте консультацію — оцінимо ваш проект за 1–2 дні.

Порівняння: моніторинг з автоматичним алертингом vs ручна перевірка

Параметр	Автоматичний моніторинг	Ручна перевірка
Реакція на збій	1–5 хвилин	30+ хвилин
Виявлення деградації LCP	щогодини	раз на день
Ризик пропуску помилки	<1%	~30%
Час на налаштування	2–3 дні	постійно

Автоматичний моніторинг Better Uptime в 10 разів швидше реагує на збої, ніж ручна перевірка.