Налаштування алертів за метриками веб-застосунку

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Налаштування алертів за метриками веб-застосунку
Середня
~2-3 робочих дні
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Налаштування алертів на метрики веб-застосунку

Алертинг без обдуманості превращається в шум: 200 сповіщень за ніч, половина вирішена за 2 хвилини. Команди перестають реагувати — саме тоді приходить реальна проблема. Ціль: алерти тільки на ситуації що потребують дії людини.

Принципи перед налаштуванням

Алертувати на симптоми, не причини. Алерт на "сайт недоступний для користувачів" важливіший ніж "CPU > 80%". Високий CPU — причина що може і не впливати на користувачів.

Чотири золоті сигнали (Google SRE Book):

  • Latency — час відповіді
  • Traffic — rps/rpm
  • Errors — відсоток помилок
  • Saturation — утилізація ресурсів

Почніть з перших трьох.

Burn rate замість порогів. "Error rate > 5% протягом 5 хвилин" краще ніж "1 помилка за хвилину". Burn rate показує як швидко ви "спалюєте" ваш SLO-бюджет помилок.

Стек: Prometheus + Alertmanager + Grafana

Правила алертів у Prometheus:

groups:
  - name: web-app
    rules:
      - alert: HighErrorRate
        expr: rate(http_requests_total{status=~"5.."}[5m]) > 0.05
        for: 5m
        labels:
          severity: critical
        annotations:
          summary: "Error rate {{ $value | humanizePercentage }} for {{ $labels.instance }}"

      - alert: SlowResponses
        expr: histogram_quantile(0.95, rate(http_request_duration_seconds_bucket[5m])) > 1
        for: 10m
        labels:
          severity: warning
        annotations:
          summary: "p95 latency is {{ $value }}s"

      - alert: DatabaseConnections
        expr: pg_stat_activity_count > 90
        for: 5m
        labels:
          severity: warning

Розклад

Базові алерти для основних метрик: 1 день. Уточнені пороги та кореляція по сервісам: 2-3 дні.