Налаштування SLA-моніторингу для веб-застосунку

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Налаштування SLA-моніторингу для веб-застосунку
Середня
~2-3 робочих дні
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Налаштування SLA-моніторингу для веб-додатку

SLA-моніторинг — це вимірювання того, виконує ли система взяті на себе зобов'язання щодо доступності та якості. Без інструментальної бази SLA залишається декларацією намірів. З моніторингом — це вимірюване та підтверджуване угода.

Що вимірюємо в SLA

Availability (доступність). Відсоток часу, протягом якого сервіс працює коректно. Формула: (total_time - downtime) / total_time * 100%. Для 99.9% SLA допустимо ~8.7 годин простоя на рік. Для 99.99% — 52 хвилини.

Response Time. P95 та P99 часів відповіді важливіше за середнє (mean). Середнє приховує хвіст повільних запитів, на які скаржаться користувачі. Типові цілі: P95 < 500ms, P99 < 2s для веб-додатку.

Error Rate. Відсоток відповідей з кодами 5xx. Ціль: < 0.1% для продакшену.

Throughput. Якщо у SLA включена пропускна спроможність — RPS або кількість транзакцій на одиницю часу.

Інструменти збору метрик

Prometheus + Grafana — стандартний стек для self-hosted. Prometheus scrapes метрики кожні 15-30 секунд. Grafana візуалізує та обчислює SLI/SLO.

Datadog / New Relic — managed-рішення, швидкий старт, вбудовані SLO dashboards.

Uptime Robot / Freshping — зовнішній моніторинг доступності (перевірки з різних точок планети), доповнює внутрішній моніторинг.

Налаштування SLI/SLO у Prometheus

# Правило для availability SLO (ціль: 99.9%)
- record: job:availability:ratio_rate5m
  expr: |
    1 - (
      rate(http_requests_total{status=~"5.."}[5m])
      /
      rate(http_requests_total[5m])
    )

# Alert: SLO під загрозою (burn rate > 14.4x за 1 годину)
- alert: SLOBurnRateTooHigh
  expr: |
    job:availability:ratio_rate5m < 0.999
    and
    rate(http_requests_total{status=~"5.."}[1h]) > 0
  for: 2m
  labels:
    severity: critical
  annotations:
    summary: "SLO availability at risk"

Error Budget — ключова концепція. Для 99.9% SLO за 30 днів error budget = 0.1% = 43.2 хвилини. Моніторинг повинен показувати: скільки error budget витрачено, з якою швидкістю витрачається (burn rate).

Зовнішні перевірки доступності

Внутрішні метрики можуть бути зеленими, поки користувачі не можуть дістатися — наприклад, сбой DNS або CDN. Зовнішні HTTP-перевірки з кількох географічних точок:

  • Pingdom, Uptime Robot, Checkly — 1-хвилинні перевірки з 5-20 точок світу
  • Blackbox Exporter (Prometheus) — probe-перевірки HTTP, TCP, ICMP з власної інфраструктури

Мінімальний набір перевірок: головна сторінка, сторінка логіну, API health endpoint, сторінка після авторизації (для перевірки БД).

SLA-звітність

Автоматичний щомісячний звіт для бізнесу:

  • Фактичний uptime vs цільовий
  • Список інцидентів з тривалістю та причиною
  • Використання error budget
  • Тренд — покращується чи деградує

Grafana дозволяє генерувати PDF-звіти за розкладом. Для enterprise — Datadog SLO Reports або Statuspage.

Терміни налаштування

  • Prometheus + Grafana + базові SLI — 2-3 дні
  • SLO rules + error budget dashboard — 1-2 дні
  • Зовнішні перевірки + alerts — 1 день
  • Налаштування звітності — 1-2 дні