Реалізація AI-логування та моніторингу запитів в мобільному додатку
Без логування AI-пайплайн — чорна скринька. Не знаєте, скільки запитів генерує кожен користувач, які промпти дають погані відповіді, де ростуть токени та гроші. Моніторинг AI-запитів принципово відрізняється від звичайного API-моніторингу: токени, вартість, latency по фазах (TTFT — час до першого токена), якість відповіді важливі.
Що логувати
Мінімум на кожен AI-запит:
Логуйте user_id захеший (не сирої — GDPR), session_id, timestamp, модель, токени prompt/completion, загальну вартість, latency, TTFT (streaming), статус (success/rate_limited/timeout/content_filtered), fallback_used, cache_hit, guardrail_triggered.
Не логуйте сирий текст запиту/відповіді (конфіденціальність). Логуйте хеш промпту для дедупліикації та категорію запиту (класифіковану окремою моделлю).
Моніторинг вартості
AI-запити — це прямі витрати, що масштабуються з користувачами. Без моніторингу вартість неочікувано виросте в 10 разів при вірусному зростанні. Потрібні алерти:
- Денна вартість > X USD → Slack/PagerDuty сповіщення
- Вартість на користувача > Y USD → прапор зловживання
- Середній розмір промпту > Z токенів → регресія управління контекстом
LangSmith (від LangChain) та Helicone — керовані платформи AI observability, інтегруються в рядках коду, надають дашборди з коробки.
Якість відповідей
Latency та вартість — технічні метрики. Якість відповіді — бізнес-метрика. Збирайте:
- Явний фідбек: великий палець вверх/вниз в UI
- Неявний: користувач переформулював питання (повторний запит протягом 10с — відповідь ймовірно не задовільна)
- LLM-as-judge: автоматична оцінка якості окремою моделлю по критеріях релевантності та повноти
Орієнтири за часом
Базове логування через Helicone або LangSmith — 1 день. Користувацька система з PostgreSQL та дашбордами Grafana — 2–3 дні. З LLM-as-judge та бізнес-метриками якості — 3–5 днів.







