Генеративний AI: Зображення, Відео, Музика, 3D
Запрос "сгенеруй зображення продукту" звучить просто. На деле — це вибір між десятками моделей, настройка pipeline інференса, розв'язання проблеми consistency між кадрами, інтеграція у product backend та відповідь на запитання "чому модель генерує руки з шістьма пальцями на стейджингу, але не на production". Розберемо по напрямам.
Генерація Зображень: Від Промпту до Production API
Актуальний ландшафт — FLUX.1 [dev/schnell/pro] від Black Forest Labs та Stable Diffusion 3.5. FLUX.1 [schnell] робить 4 кроки замість 20–50 у SDXL та при цьому тримає якість вище. На A100 80GB — 1.2–1.8 с на зображення 1024×1024 при batch_size=4.
Типова проблема при розгортанні: FLUX.1 [dev] потребує 24+ GB VRAM в fp16. На A10G 24GB влізає впритик, при batch_size>1 — OOM. Рішення: torch_dtype=torch.bfloat16 + enable_model_cpu_offload() з diffusers, або квантизація через bitsandbytes в NF4 — падіння якості мінімально, потребування пам'яті снижується до 12–14 GB.
ControlNet та IP-Adapter — ключові інструменти для production-задач з потребою управлюваності. ControlNet з Canny/Depth/Pose картою дає структурний контроль. IP-Adapter (особливо IP-Adapter-FaceID) дозволяє переносити identity персонажа — основа для персоналізованого контенту.
Кейс: e-commerce фотосъємка. Ритейлер з 8000 SKU потребував lifestyle-фото для кожного продукту. Pipeline: сегментація продукту (Segment Anything Model 2) → видалення фону → inpainting FLUX.1 [dev] з product image як IP-Adapter reference → upscale через RealESRGAN_x4plus. Вартість генерації — $0.003/зображення на арендованих A100, vs $15–40 за професійну фотозйомку. Throughput — 200 зображень/год на 2× A100.
Fine-tuning під Конкретний Стиль або Персонаж
Dreambooth та LoRA — стандарт для адаптації під конкретний візуальний стиль або об'єкт. LoRA учиться за 2–4 години на 20–30 референсних зображеннях на A100. Rank 16–32 зазвичай достатньо для стилю, rank 64+ потрібен для точного відтворення облич.
Частая помилка: учити LoRA занадто довго — модель переучується на референсах, теряє здатність до варіативності. Ознака: при cfg_scale=7 всі зображення схожі на copy-paste референсу. Лікування — ранньою зупинкою (зазвичай 1500–2000 кроків для 20 зображень) та prior_preservation_loss.
Для глибшої кастомізації — full fine-tuning через diffusers + accelerate з FSDP на кількох GPU. Це вже 40–80 годин навчання та дійсно великий датасет (1000+ зображень).
Генерація Відео: Стан Технологій у 2025
| Модель | Доступність | Довжина | Розрішення | Управлінність |
|---|---|---|---|---|
| Sora (OpenAI) | API (обмежений) | до 60 с | 1080p | промпт, image-to-video |
| Wan2.1 (Alibaba) | open weights | до 81 кадру | 720p | промпт, I2V, V2V |
| CogVideoX-5B | open weights | 6 с | 720p | промпт, I2V |
| Kling 1.6 | API | до 30 с | 1080p | промпт, I2V |
| Mochi-1 | open weights | 5.4 с | 480p | промпт |
Open-weight відеомоделі відстають від комерційних по стабільності та довжині. Wan2.1 — найкращий вибір для self-hosted: 14B параметрів, працює на 2× A100, дає приймальну якість для коротких кліпів.
Головна біль відеогенерації — temporal consistency: персонаж змінює колір одежі на третій секунді, об'єкт "плаває". Часткове рішення — генерація з motion_bucket_id та noise_aug_strength у Stable Video Diffusion, або використання I2V (image-to-video) замість чистого text-to-video.
AnimateDiff залишається робочим інструментом для коротких петель та motion-ефектів поверх SD/FLUX. Не Sora, але розгортається локально та передбачуваний.
Генерація Музики та Аудіо
AudioCraft від Meta (MusicGen + AudioGen) — production-готовий стек для музичної генерації. musicgen-large (3.3B) генерує 30 с музики за ~8 с на A100. Управління через текстовий промпт та melody conditioning — можна задати мелодію напеванням.
Stable Audio Open від Stability AI — альтернатива з довжиною до 47 с, краща управлюваність структурою (intro/verse/chorus). Деплой аналогічен: diffusers + FastAPI.
Для voice-over та озвучки — ElevenLabs API або self-hosted XTTS v2 (див. услугу Speech AI). Sound design та foley — AudioGen.
3D-Генерація: Практичний Стан
3D-генерація все ще не дісталася тієї ж зрілості, що 2D. Але для конкретних задач інструменти вже робочі:
TripoSG та Shap-E — text/image-to-3D. Shap-E від OpenAI генерує прості 3D-меші за секунди, але геометрія грубовата. TripoSG дає більш детальні результати, але потребує postprocessing (ремешинг, UV-розгортка).
Wonder3D та Zero123++ — реконструкція 3D з одного зображення. Працюють через генерацію multi-view (6–8 видів) та подальше 3D-відновлення через NeuS або instant-ngp.
Gaussian Splatting (3DGS) — не генерація, а реконструкція з серії фото/відео. Для карточок товарів та нерухомості це вже production: 50–200 фото → 3DGS модель за 15–30 хв на RTX 4090 → інтерактивний 3D-вьювер у браузері.
Інфраструктура та Деплой
Для генеративних моделей критично:
- Черга завдань — Celery + Redis або Ray Serve. Синхронний HTTP для генерації зображень неприйнятний при >5 конкурентних запитах.
- Кешування — схожі промпти дають схожі результати. Семантичний кеш через embedding'и (faiss + sentence-transformers) може знизити навантаження на GPU на 20–40%.
- Моніторинг якості — CLIP score для text-image alignment, FID для оцінки розподілу генерацій. Інтеграція в MLflow або W&B.
- Сховище — сгенеровані зображення одразу в S3/MinIO, не на диск інференс-сервера.
Процес Роботи
Перш ніж вибирати модель — визначаємо use case: потрібен ли real-time (<3 с) або batch, потрібна ли управлюваність (бренд-стиль, конкретні обличчя), який бюджет на GPU. Це перша розмова на 1–2 години.
Далі — proof of concept на вашому контенті. Дивимося на реальні результати, а не на демо-приклади з GitHub. Часто виявляється, що потрібна гібридна схема: API для терміновых задач + self-hosted для масової обробки.
Терміни: інтеграція готового API (DALL-E 3, Midjourney API, Stability API) — 1–2 тижні. Self-hosted pipeline з fine-tuning — 6–12 тижнів. Повна платформа з UI, чергами та моніторингом — 3–6 місяців.







