Реалізація SLA-дашборду (Uptime, Response Time, Error Rate)

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Реалізація SLA-дашборду (Uptime, Response Time, Error Rate)
Середня
~3-5 робочих днів
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Реалізація SLA-дашборда (Uptime, Response Time, Error Rate)

SLA-дашборд — це одне вікно, де бізнес та розроблення бачать одні й ті ж цифри про стан сервісу. Ключова вимога: дашборд повинен відповісти на питання «виконуємо ли ми SLA прямо зараз» за 5 секунд перегляду.

Структура SLA-дашборда

Хороший дашборд має три рівні детальності:

Верхня панель (статус прямо зараз):

  • Поточний uptime за місяць (наприклад, 99.94%)
  • Залишок error budget у хвилинах/годинах
  • Статус сервісу: OK / DEGRADED / DOWN (великий кольоровий індикатор)

Середня панель (тренди за період):

  • Графік uptime за останні 30/90 днів
  • P50/P95/P99 response time — часовий ряд
  • Error rate — часовий ряд з анотаціями інцидентів

Нижня панель (деталізація):

  • Breakdown по ендпоінтам: які найповільніші
  • Breakdown по регіонам/ДЦ
  • Останні інциденти з тривалістю

Реалізація у Grafana

{
  "panels": [
    {
      "title": "SLO Availability (30d)",
      "type": "stat",
      "targets": [{
        "expr": "avg_over_time(job:availability:ratio_rate5m[30d]) * 100",
        "legendFormat": "Availability %"
      }],
      "thresholds": [
        {"color": "red", "value": 99.0},
        {"color": "yellow", "value": 99.9},
        {"color": "green", "value": 99.95}
      ]
    },
    {
      "title": "Error Budget Remaining",
      "type": "gauge",
      "targets": [{
        "expr": "slo_error_budget_remaining_minutes"
      }]
    }
  ]
}

Змінні дашборда для фільтрування: $service, $environment, $time_range. Один дашборд для всіх сервісів.

Ключові метрики та їх обчислення

Uptime %:

(1 - sum(increase(http_requests_total{status=~"5.."}[30d]))
   / sum(increase(http_requests_total[30d]))) * 100

P95 Response Time:

histogram_quantile(0.95,
  rate(http_request_duration_seconds_bucket[5m])
)

Error Budget Burn Rate (1h):

(
  rate(http_requests_total{status=~"5.."}[1h])
  / rate(http_requests_total[1h])
) / (1 - 0.999)

Burn rate > 14.4 означає: при поточному темпі весь місячний error budget згорить за 2 дні.

Дашборд для різних аудиторій

Технічний дашборд (для розробників): детальні метрики, розбивка по сервісам та ендпоінтам, stack traces з Sentry/Jaeger, кореляція з деплоями.

Управлінський дашборд (для бізнесу): uptime у відсотках, кількість інцидентів, тренд. Мінімум цифр, максимум контексту. Можна зробити read-only Grafana snapshot, оновлюваний раз на добу.

Публічна Status Page (для користувачів) — окрема реалізація (Cachet, Statuspage.io, self-hosted).

Інтеграція з алертингом

На дашборді повинні бути видні: активні alerts прямо зараз, історія alerts за період. Grafana Alerting або Alertmanager (при Prometheus) інтегрується напрямку. Кожен alert на дашборді — анотація на графіках (вертикальна лінія з описом).

Терміни реалізації

  • Базові панелі (uptime, response time, error rate) — 1-2 дні
  • Error budget + burn rate — 1 день
  • Анотації інцидентів + історія — 1 день
  • Управлінський дашборд — 1-2 дні