AutoML: AutoGluon, FLAML, Vertex AI AutoML та Коли Це Працює
AutoML не означає "натисни кнопку, отримай модель". Це означає "автоматизував перебір гіперпараметрів та вибір алгоритму". Різниця важливе: AutoML все рівно потребує правильної постановки задачі, якісних даних та розуміння результату. Але для конкретних задач економить тижні.
Що AutoML Робить Добре
На структурованих табличних даних AutoML-системи конкурують з ручним ML-інжинірингом — іноді виграють. На kaggle-змаганнях AutoGluon попадає в топ-10% без якої-небудь настройки на багатьох датасетах. Причина: він будує ансамбль різних алгоритмів (LightGBM, XGBoost, CatBoost, нейросіті, RF) зі stacking — саме такий ансамбль часто перемагає одиночну кращу модель.
Хороші кандидати для AutoML:
- Стандартна бінарна/мультиклассова класифікація або регресія на табличних даних
- Задачі без специфічних обмежень (latency < 50 мс, розмір < 10 MB)
- MVP або baseline перед ручною оптимізацією
- Команди без глибокої ML-експертизи, котрим потрібен робочий прототип швидко
Погані кандидати: задачи з кастомним loss, специфічні архітектурні вимоги, real-time з жорсткими обмеженнями, domain-специфичные (медична візуалізація, NLP на редкій мові).
AutoGluon: Детально
AutoGluon-Tabular — найсильніший AutoML для табличних даних по більшості benchmarks. Ключові особливості:
Багаторівневий stacking. AutoGluon будує кілька шарів ансамблю. Моделі першого шару (LightGBM, XGBoost, CatBoost, FastAI tabular, KNN) → їх передсказання як features → моделі другого шару. Управляється через num_stack_levels=2.
from autogluon.tabular import TabularPredictor
predictor = TabularPredictor(
label='target',
eval_metric='roc_auc',
path='./ag_models'
).fit(
train_data,
time_limit=3600, # 1 час
presets='best_quality', # vs 'medium_quality', 'high_quality'
)
Preset best_quality включає stacking, максимум пам'яті/часу. medium_quality баланс швидкість/якість, підходит для >1M рядків. optimize_for_deployment видаляє важкі ансамблі, прискорює inference.
Підводний камінь: AutoGluon учиться десятків моделей та зберігає всі — 2–10 GB на серйозних задачах. При деплою використовуємо predictor.clone_for_deployment() щоб експортувати тільки фінальну модель.
Пам'ять з num_stack_levels=2 на 500k рядків: моделі другого шару потребують out-of-fold передсказань першого. AutoGluon управляє, але <32 GB RAM рискує OOM. Рішення: ag_args_fit={'num_cpus': 4, 'num_gpus': 0} та виключити NeuralNetFastAI.
FLAML: Швидкий та Економний
FLAML (Fast and Lightweight AutoML) від Microsoft спрямований на мінімальний бюджет обчислень при хорошій якості. Cost-frugal пошук — спочатку пробує дешеві конфіги, потім більш дороги.
Підходить для: обмеженого бюджету обчислень, задач з time_budget < 60 sec, інтеграції в CI/CD де AutoML запускається при кожному обновленні даних.
from flaml import AutoML
automl = AutoML()
automl.fit(X_train, y_train, task="classification", time_budget=120, metric="roc_auc")
FLAML також підтримує fine-tuning LLM через flaml.autogen — автоматичний підбір промптів та параметрів для GPT/Claude.
Vertex AI AutoML: Managed Service
Google Vertex AI AutoML — правильний вибір, коли:
- Немає власної ML-інфраструктури
- Потребується інтеграція з Google Cloud (BigQuery, Cloud Storage, Dataflow)
- Задача — Computer Vision або NLP, а не тільки табличні дані
- Потрібен managed inference endpoint без DevOps
Вартість: $1.375/год node для табличних. 100k рядків, 50 features — зазвичай 2–4 години навчання. Inference: $0.05–0.10 за 1k передсказань. Для високої навантаженості self-hosted AutoGluon вигідніше.
Обмеження: менше контролю за архітектурою, нельзя кастомний loss, експорт обмежен (TF SavedModel або TFLite, без ONNX). Але managed feature store, автоматичний drift monitoring та MLOps з коробки.
No-Code Платформи: H2O.ai, DataRobot
Для business analysts без коду — H2O.ai AutoML (open source) та DataRobot (enterprise). Обидва надають GUI, автоматичну feature importance, пояснення моделей.
H2O AutoML open source розгортається локально, підтримує Stacked Ensemble, REST API або R/Python клієнт. DataRobot — дорогу enterprise ($50k+/рік), але з глибокою інтеграцією у корпоративні процеси та compliance-фічами.
Коли AutoML Не Замінює ML-Інженера
AutoML автоматизує вибір алгоритму та гіперпараметрів. Він не розв'язує:
- Feature engineering. Створити ознаку "час з моменту останньої покупки" або "відношення дебіту/кредиту" — робота експерта. AutoGluon робить базове, domain-специфичные — ні.
- Кастомний preprocessing. Медичні знімки, парсинг лог-файлів, видобування features з аудіо.
- Обмеження деплою. AutoML вибирає модель з найкращою якістю, а не ту, що влізе в 4 MB мобільної програми.
- Устойчивость до distribution shift. AutoML оптимізує метрику на test set. Як модель буде себе вести через пів року при зміні даних — окрема питання.
Процес Роботи
Для проектів з AutoML починаємо з швидкого бенчмарку: AutoGluon medium_quality за 30 хвилин дає чесний baseline. Якщо результат достатній — переходимо до деплою та моніторингу. Якщо ні — результати AutoML показують, які алгоритми перспективні, та ми починаємо ручну оптимізацію з правильного старту.
Терміни: MVP з AutoGluon — 1–2 тижні (включаючи EDA та деплой). Production-система з моніторингом та автопереученням — 1–3 місяці.







