Які моделі найкраще підходять для прогнозування часових рядів?

Вибір моделі залежить від властивостей ряду: стаціонарності, сезонності, нелінійності, переривчастості. Для бізнес-даних зі святами часто використовують Prophet, для чистих рядів — N-BEATS або N-HiTS, для багатовимірних задач — Temporal Fusion Transformer. Ми на практиці обираємо 3–5 кандидатів і порівнюємо їх через walk-forward валідацію.

Як уникнути data leakage при прогнозуванні часових рядів?

Основні джерела витоку: масштабування на всьому датасеті, використання майбутніх значень у цільовій змінній, застосування target encoding з майбутніми даними. Рішення — використовувати часовий split, fit scaler лише на тренувальних даних, розділяти known future covariates і past covariates. Walk-forward validation з правильним вікном тестування обов'язкове.

Що таке квантильний прогноз і навіщо він потрібен?

Квантильний прогноз дає інтервал невизначеності замість точкового значення. Наприклад, прогноз 100 одиниць з 10-м та 90-м перцентилями [70, 130] дозволяє бізнесу приймати рішення з урахуванням ризику. Реалізується через quantile regression (LightGBM), conformal prediction або Monte Carlo Dropout у нейромережах.

Скільки часу займає впровадження системи прогнозування?

Статистичні baseline (AutoARIMA, Prophet) — 2–3 тижні. Повноцінна ML-система з walk-forward, квантильними прогнозами, моніторингом дрейфу та пайплайном у Airflow — 8–12 тижнів. Терміни залежать від складності ряду, кількості зовнішніх факторів і вимог до інтеграції.

Як ми забезпечуємо якість прогнозів у продакшені?

Ми впроваджуємо MLflow для версіонування експериментів, Airflow для автоматичного перенавчання та Evidently для відстеження data drift. Крім того, регулярно порівнюємо прогнози з реальними даними і при необхідності перенавчаємо моделі. Досвід показує, що такий підхід знижує помилку прогнозу на 15–30% порівняно з разовою моделлю.

Які моделі найкраще підходять для прогнозування часових рядів?

Вибір моделі залежить від властивостей ряду: стаціонарності, сезонності, нелінійності, переривчастості. Для бізнес-даних зі святами часто використовують Prophet, для чистих рядів — N-BEATS або N-HiTS, для багатовимірних задач — Temporal Fusion Transformer. Ми на практиці обираємо 3–5 кандидатів і порівнюємо їх через walk-forward валідацію.

Як уникнути data leakage при прогнозуванні часових рядів?

Основні джерела витоку: масштабування на всьому датасеті, використання майбутніх значень у цільовій змінній, застосування target encoding з майбутніми даними. Рішення — використовувати часовий split, fit scaler лише на тренувальних даних, розділяти known future covariates і past covariates. Walk-forward validation з правильним вікном тестування обов'язкове.

Що таке квантильний прогноз і навіщо він потрібен?

Квантильний прогноз дає інтервал невизначеності замість точкового значення. Наприклад, прогноз 100 одиниць з 10-м та 90-м перцентилями [70, 130] дозволяє бізнесу приймати рішення з урахуванням ризику. Реалізується через quantile regression (LightGBM), conformal prediction або Monte Carlo Dropout у нейромережах.

Скільки часу займає впровадження системи прогнозування?

Статистичні baseline (AutoARIMA, Prophet) — 2–3 тижні. Повноцінна ML-система з walk-forward, квантильними прогнозами, моніторингом дрейфу та пайплайном у Airflow — 8–12 тижнів. Терміни залежать від складності ряду, кількості зовнішніх факторів і вимог до інтеграції.

Як ми забезпечуємо якість прогнозів у продакшені?

Ми впроваджуємо MLflow для версіонування експериментів, Airflow для автоматичного перенавчання та Evidently для відстеження data drift. Крім того, регулярно порівнюємо прогнози з реальними даними і при необхідності перенавчаємо моделі. Досвід показує, що такий підхід знижує помилку прогнозу на 15–30% порівняно з разовою моделлю.

Прогнозування часових рядів (Time Series Forecasting)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Прогнозування часових рядів (Time Series Forecasting)

Середній

~1-2 тижні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Реалізація прогнозування часових рядів (Time Series Forecasting)

Ми регулярно стикаємося з ситуацією, коли дані — продажі, IoT-датчики або біржові котирування — містять часові залежності, які легко порушити невірним обробленням. Неправильний split або ігнорування сезонності призводять до data leakage та хибно-оптимістичних результатів на backtest. Наприклад, в одному проекті з прогнозування попиту на запчастини seasonal naive давав MAPE 40%, а Prophet — 28%, але тільки після walk-forward валідації з'ясувалося, що Prophet на 10% гірший на останніх трьох місяцях. За кілька років реальних проектів ми реалізували понад 20 систем прогнозування та виробили robust-методологію, якою ділимося нижче. Для кожної задачі підбираємо стек: від класичних SARIMA до сучасних Transformer-архітектур, враховуючи бюджет та вимоги до інтерпретованості. Отримайте консультацію щодо вашого проекту — ми проаналізуємо дані та запропонуємо roadmap за 2–3 дні.

Класифікація часових рядів

Перед вибором методу — аналіз властивостей ряду:

Стаціонарність: ADF-тест (Augmented Dickey-Fuller). Нестаціонарні ряди вимагають диференціювання або спеціальних методів.
Сезонність: ACF/PACF аналіз. Одиночна (тижнева) або множинна (тижнева + річна) сезонність впливає на вибір моделі.
Переривчастість (intermittency): ADI (Average Demand Interval) > 1.32 — спеціальні методи (Croston, IMAPA).
Нелінійність: тест Teräsvirta / BDS-тест. Лінійні моделі (ARIMA) неадекватні при сильній нелінійності.

Як вибрати модель для часового ряду?

Універсальної відповіді немає — ми порівнюємо кандидатів на історичних даних. Ось типові варіанти з їх trade-off:

Naive / Seasonal Naive — найпростіший baseline для перевірки, чи складні методи дійсно кращі.
ETS (Exponential Smoothing) з автоматичним підбором — добре працює на рядах з одиночною сезонністю, але не підтримує множинні сезонності.
SARIMA — класика з довірчими інтервалами, але повільна при великій кількості спостережень.
Prophet — зручний для бізнес-даних зі святами, інтерпретований, але програє нейромережам на складних патернах.
LightGBM з лагами — дає високу точність при множині зовнішніх факторів, але вимагає інженерної роботи над фічами.
N-BEATS / N-HiTS — SOTA на змаганнях M4/M5, працюють без зовнішніх фіч, але залишаються чорним ящиком.
Temporal Fusion Transformer — лідер для ансамблів множини рядів, але вимогливий до GPU та даних.
TimesGPT / TimesFM — foundation-моделі для zero-shot прогнозу, прискорюють старт, але дорогі та менш контрольовані.

Правильний бектестинг

Проблема: стандартний train/test split порушує temporal ordering.

Walk-Forward Validation:

|---Train---| Test |
|----Train----|   Test   |
|-----Train-----|     Test     |
Average metrics across all windows

Розмір тестового вікна = прогнозний горизонт. Крок зсуву = горизонт / 2 або = горизонт (без overlap).

Data leakage sources:

Використання майбутніх даних у scaling (fit scaler на всьому датасеті)
Target encoding з майбутніми значеннями
External features з майбутньою інформацією (known future covariates vs. past covariates)

Чому walk-forward валідація обов'язкова?

Без неї будь-яка метрика на тесті буде оптимістичною. Ми гарантуємо, що всі моделі проходять часовий split без overlap. У проектах використовуємо бібліотеку statsforecast з автоматичним підбором вікна. Це єдиний спосіб отримати реалістичну оцінку якості та уникнути переплати за хибні очікування.

Feature Engineering для ML-підходу

Часові features:

df['hour'] = df.index.hour
df['day_of_week'] = df.index.dayofweek
df['week_of_year'] = df.index.isocalendar().week
df['month'] = df.index.month
df['is_weekend'] = df['day_of_week'].isin([5, 6]).astype(int)
# Cyclical encoding
df['sin_hour'] = np.sin(2 * np.pi * df['hour'] / 24)
df['cos_hour'] = np.cos(2 * np.pi * df['hour'] / 24)

Lag features: t-1, t-7, t-14, t-28 для денних даних; t-1, t-24, t-168 для погодинних.

Rolling statistics: середнє, std, min, max за 7/28/90 днів. Різниці: (t-1) - (t-7) для захоплення тренду.

Probabilistic Forecasting

Точковий прогноз без невизначеності — недостатньо для бізнес-рішень. Квантильні прогнози:

Quantile Regression: LightGBM з objective='quantile', alpha=0.1/0.5/0.9
Conformal Prediction: теоретично обґрунтовані інтервали, не передбачають розподіл
Monte Carlo Dropout: у нейромережах — ensemble через dropout в inference
N-HiTS з квантилями: нативна підтримка в бібліотеці neuralforecast

Детальніше про квантильні прогнози

Квантильний прогноз дає інтервал [P10, P90] замість точкового значення. Це дозволяє бізнесу оцінити ризики: наприклад, закласти бюджет не за середнім, а за P90. Ми завжди включаємо квантилі в продакшен-системи.

Production Pipeline

# Приклад з Nixtla / statsforecast
from statsforecast import StatsForecast
from statsforecast.models import AutoARIMA, AutoETS, AutoTheta

models = [AutoARIMA(season_length=7), AutoETS(season_length=7), AutoTheta()]
sf = StatsForecast(models=models, freq='D', n_jobs=-1)
sf.fit(train_df)
forecasts = sf.predict(h=28, level=[80, 95])

MLflow tracking: кожен експеримент — версія даних, гіперпараметри, метрики, артефакт моделі.

Scheduling: Airflow DAG для щоденного перенавчання та публікації прогнозів у Data Warehouse.

Моніторинг: Evidently для відстеження data drift вхідних фіч та prediction drift виходу моделі.

Порівняння підходів до валідації

Метод валідації	Застосування	Особливості
Hold-out (train/test)	Швидкий baseline	Рве часову структуру, data leakage
Walk-forward з overlap	Рекомендується	Честна оцінка, ітеративне навчання
Rolling window (без overlap)	Альтернатива	Менше тестових вікон, швидше
Timeseries CV (наприклад, Blocked CV)	Бібліотеки scikit-learn	Зручно, але часто ігнорує сезонність

Ми використовуємо walk-forward з overlap, оскільки він дає найбільш стабільні метрики та відповідає продакшен-навантаженню.

Порівняння моделей за критеріями

Модель	Точність (MAPE)	Інтерпретованість	Підтримка множинної сезонності	Час навчання
Prophet	Середня	Висока	Частково	Швидко
N-BEATS	Висока	Низька	Так	Середньо
LightGBM	Висока	Середня	Ні (потрібні лаги)	Швидко
TFT	Дуже висока	Низька	Так	Довго (GPU)

Поетапний план впровадження системи прогнозування

Аналіз вихідних даних та виявлення закономірностей (стаціонарність, сезонність, переривчастість).
Вибір baseline та 3–5 кандидатів (від простих до складних).
Walk-forward валідація кожної моделі та порівняння за метриками (MAPE, RMSE, MASE).
Розробка production pipeline: версіонування експериментів у MLflow, оркестрація в Airflow, моніторинг дрейфу в Evidently.
Інтеграція прогнозів у Data Warehouse та налаштування алертів при відхиленнях.

Терміни: від 2–3 тижнів для baseline до 8–12 тижнів для повної системи з квантилями та дрифт-моніторингом. Вартість розраховується індивідуально — зв'яжіться з нами для оцінки вашого проекту. Для отримання детальної комерційної пропозиції залиште заявку.

Досвід нашої команди — понад 20 реалізованих проектів, середнє зниження MAPE на 15–30% після налаштування моделі. Звертайтеся — оцінимо ваш часовий ряд, підберемо стек та підготуємо roadmap за 2–3 дні.

Які проблеми прогнозування часових рядів зустрічаються найчастіше?

Фінансовий директор запитує прогнозування часових рядів продажів на квартал. Аналітик будує SARIMA, досягає MAPE 8.3% на тестовій вибірці — і з гордістю деплоїть. Через два місяці в production метрика падає до 23%. Причина класична: модель навчалася на даних до COVID, тестувалася на стабільному періоді, а production потрапив на промо-акцію та збій поставок. Data leakage + distribution shift = гарні цифри в ноутбуці та непрацюючий прогноз в реальності. Ми стикалися з цим десятки разів. Наш досвід — 5+ років у прогнозуванні часових рядів для рітейлу, фінтеху та IoT, більше 50 завершених проєктів.

Неправильна крос-валідація. Стандартний train_test_split для часових рядів — помилка. Випадкове розбиття створює data leakage: модель бачить «майбутні» значення в навчанні. Правильно — TimeSeriesSplit або walk-forward validation з expanding window.

Множинна сезонність. Погодинні дані споживання електроенергії мають три сезонності: добову (24 год), тижневу (168 год), річну (8760 год). SARIMA справляється лише з однією. Prophet обробляє кілька, але повільно масштабується на тисячі рядів.

Пропуски та аномалії в даних. Пропуск у сенсорних даних — це інформація (датчик відключився), а не просто NaN. Лінійна інтерполяція вбиває цей сигнал. Правильна обробка залежить від природи пропуску.

Cold start при ієрархічному прогнозуванні. Новий SKU в асортименті з 50 000 позицій: історичних даних немає, потрібен прогноз. Стандартні підходи тут не працюють — потрібні cross-learning підходи або feature-based методи.

Які інструменти і коли застосовувати?

Prophet (Meta) — чудовий старт для бізнес-даних із зрозумілою сезонністю та святами. Швидко налаштовується, інтерпретований, вбудована обробка викидів і пропусків. Падає в точності при нерегулярних патернах і не масштабується на десятки тисяч рядів без паралелізації. Prophet (Facebook) — офіційна документація.

Gradient boosting на фічах (LightGBM, XGBoost) — часто недооцінений підхід. Створюєте фічі вручну: лаги (t-1, t-7, t-28), ковзні середні, категоріальні ознаки (день тижня, місяць), екзогенні змінні. Модель навчається на всіх рядах одночасно — вирішує cold start через схожі ряди. MAPE на рітейл-прогнозуванні часто кращий за нейронні мережі при правильній feature engineering.

TFT (Temporal Fusion Transformer) — трансформер, спеціально розроблений для інтерпретованого прогнозування з коваріатами. Вбудовані механізми: variable selection (які ознаки важливі), temporal self-attention (які часові точки впливають на прогноз), квантильні передбачення. Доступний у pytorch-forecasting. Вимагає ~10 000+ записів на ряд для стабільного навчання. Temporal Fusion Transformer — академічна публікація.

PatchTST — трансформер, який ділить часовий ряд на патчі (аналогічно ViT для зображень). Краще захоплює локальні патерни, ніж класичні трансформери. Добре працює для long-horizon forecasting (прогноз на 96–720 кроків). Реалізація в neuralforecast від Nixtla.

N-HiTS, N-BEATS — нейронні архітектури без attention, швидші за TFT, конкурентна точність. N-BEATS виграє на M4/M5 benchmark для задач без коваріат.

Метод	Коваріати	Масштаб (рядів)	Інтерпретованість	Складність
Prophet	Так (регресори)	До 10k	Висока	Низька
LightGBM + фічі	Так	100k+	Середня	Середня
TFT	Так	1k–100k	Висока	Висока
PatchTST	Ні/обмежено	Будь-який	Низька	Середня
N-HiTS	Ні	Будь-який	Низька	Низька

Як ми розгортаємо TFT в production?

TFT потребує ретельної підготовки даних. Типовий пайплайн через pytorch-forecasting:

training = TimeSeriesDataSet(
    data,
    time_idx="time_idx",
    target="sales",
    group_ids=["store", "sku"],
    min_encoder_length=max_encoder_length // 2,
    max_encoder_length=max_encoder_length,  # 120 днів
    min_prediction_length=1,
    max_prediction_length=max_prediction_length,  # 28 днів
    static_categoricals=["store_type", "category"],
    time_varying_known_reals=["price", "promo_flag"],
    time_varying_unknown_reals=["sales"],
    target_normalizer=GroupNormalizer(groups=["store", "sku"], transformation="softplus"),
)

Часта помилка: target_normalizer за замовчуванням (StandardScaler) ламає передбачення для рядів з нульовими значеннями (немає продажів у вихідні). GroupNormalizer з transformation="softplus" — правильний вибір для count-даних.

Покрокова інструкція з налаштування TFT

Збір та підготовка даних. Обробити пропуски (маркувати NaN, інтерполювати лише якщо це технічний збій), агрегувати до потрібної частоти, сформувати коваріати (свята, промо, ціни).
Створення TimeSeriesDataSet. Вказати group_ids (наприклад, магазин+SKU), часовий індекс, горизонт прогнозу. Налаштувати target_normalizer з урахуванням розподілу таргета.
Навчання baseline. Спочатку Prophet або LightGBM — щоб зрозуміти, наскільки складніше завдання.
Тренування TFT. Запустити TemporalFusionTransformer з loss=QuantileLoss(), підібрати learning rate та розміри hidden шарів. Використовувати pytorch_forecasting або neuralforecast.
Валідація та інтерпретація. Перевірити walk-forward, проаналізувати variable selection, побудувати attention heatmap.

Кейс: прогноз попиту в рітейлі. Мережа з 120 магазинів, 8000 SKU, горизонт прогнозу 28 днів. Вихідна система: SARIMA окремо для кожного ряду, MAPE 18.4%, повний цикл перенавчання — 6 годин. TFT на PyTorch + pytorch-forecasting: одна модель на всі ряди, MAPE 11.2%, перенавчання — 40 хв на A10G. Додатковий бонус: feature importance через variable selection — з'ясувалося, що day_before_holiday впливає сильніше, ніж сама дата свята. Середня економія бюджету на інференсі для клієнта склала значну суму.

Як правильно оцінювати якість прогнозів?

Не використовуйте RMSE як єдину метрику — вона сильно штрафує за великі помилки на великих значеннях. Наш набір метрик для рітейл-прогнозування:

MAPE — інтерпретована, але нестабільна при значеннях близьких до нуля
sMAPE — симетрична версія, уникає ділення на маленькі числа
MASE (Mean Absolute Scaled Error) — нормалізована відносно наївного сезонного прогнозу, чудово підходить для порівняння між рядами з різними масштабами
Quantile loss / Pinball loss — для ймовірнісного прогнозування, оцінка покриття інтервалів

Метрика	Коли використовувати	Недолік
MAPE	Бізнес-звітність, ряд без нулів	Нестабільна при малих значеннях
sMAPE	Порівняння моделей, нульові значення	Асиметрична інтерпретація
MASE	Різномаштабні ряди, бенчмарки	Вимагає сезонного наївного прогнозу
Pinball loss	Ймовірнісні моделі, управління запасами	Багато метрик для різних квантилів

Гарантуємо: ми надаємо model card з цими метриками на валідаційній вибірці та результати walk-forward тесту на історії не менше 6 місяців.

Що входить в роботу

Документація щодо обраної архітектури, обґрунтування вибору гіперпараметрів.
Відтворюваний пайплайн навчання та інференсу (Docker + CI/CD + Airflow/Prefect).
Код з коментарями та модульними тестами на ключові компоненти.
Навчання вашої команди: як перенавчати модель, як інтерпретувати виходи, як деплоїти нові версії.
Підтримка протягом 3 місяців після здачі: консультації, виправлення багів, доналаштування.

Деталі пайплайну інференсу

Модель деплоїться через FastAPI або Triton Inference Server. Перенавчання запускається за розкладом (наприклад, раз на тиждень) через Airflow — з валідацією drift та автоматичним відкатом при погіршенні метрик.

Процес роботи

Починаємо з EDA: візуалізація, тест ADF на стаціонарність, STL-декомпозиція, аналіз пропусків та викидів. Це 2–3 дні, але часто виявляє системні проблеми даних, які блокують прогнозування.

Потім: baseline (наївний seasonal, Prophet), feature engineering для LGBM, вибір архітектури нейронної мережі якщо потрібно. Walk-forward validation з реалістичним горизонтом. Деплой через API з автоматичним перенавчанням за розкладом через Airflow або Prefect.

Строки орієнтовно: MVP-прогноз на одному типі даних — 3–6 тижнів. Ієрархічна система прогнозування з автоматизацією — 2–5 місяців. Вартість розраховується індивідуально.

Наша команда — сертифіковані ML-інженери (AWS ML Specialty, GCP Professional ML Engineer). За 5 років на ринку реалізували понад 50 проєктів з прогнозування. Зв'яжіться з нами для безкоштовного аналізу ваших даних — ми оцінимо завдання та дамо перші рекомендації за 1–2 дні. Замовте консультацію і переконайтеся, що ваші прогнози працюють в production, а не тільки в ноутбуці.