Впровадження генерування відео з штучним інтелектом (Runway/Sora) в мобільному додатку
Генерування відео через AI — це поки що виключно серверна задача. Моделі класу Runway Gen-3, Sora, Kling, Hailuo вимагають A100/H100 GPU та від 30 секунд до кількох хвилин на один клип. Завдання мобільного розробника — правильно організувати асинхронний флоу, стан інтерфейсу та доставку результату користувачу.
Огляд доступних API
| Постачальник | API | Довжина клипу | Типовий час | Вхідні дані |
|---|---|---|---|---|
| Runway Gen-3 Alpha | REST + polling | 5–10 сек | 30–90 сек | Text, Image-to-Video |
| Kling AI | REST API | 5–10 сек | 60–180 сек | Text, Image-to-Video |
| Hailuo (MiniMax) | REST API | 6 сек | 45–120 сек | Text, Image-to-Video |
| Luma Dream Machine | REST API | 5 сек | 30–60 сек | Text, Image, Keyframes |
| Replicate (різні) | REST + WebSocket | 2–10 сек | 30–120 сек | Залежить від моделі |
Sora від OpenAI доступна через API лише в межах ChatGPT Enterprise — публічного API немає станом на березень 2025. Runway — найзрілішого публічного API з SDK для TypeScript/Python.
Асинхронна архітектура: головна складність
Користувач натискає «Генерувати», чекає хвилину. Програма повинна:
- Показувати прогрес (хоча API зазвичай повертають лише
PENDING/PROCESSING/SUCCEEDED) - Пережити згортання програми
- Доставити результат навіть якщо користувач повернувся через 5 хвилин
// iOS: генерування через Runway API
class VideoGenerationService {
func generate(prompt: String, sourceImage: UIImage?) async throws -> URL {
// 1. Створюємо задачу
let taskId = try await runwayClient.createTask(
prompt: prompt,
imageURL: sourceImage.map { try await uploadImage($0) },
duration: 5,
ratio: "1280:768"
)
// 2. Зберігаємо taskId — на випадок згортання
UserDefaults.standard.set(taskId, forKey: "pendingVideoTaskId")
// 3. Poll з нарастаючим інтервалом
return try await pollWithBackoff(taskId: taskId)
}
private func pollWithBackoff(taskId: String) async throws -> URL {
let intervals: [TimeInterval] = [3, 5, 8, 10, 10, 15, 15, 20, 20, 30]
for interval in intervals + Array(repeating: 30.0, count: 10) {
try await Task.sleep(nanoseconds: UInt64(interval * 1e9))
let task = try await runwayClient.getTask(id: taskId)
switch task.status {
case .succeeded:
UserDefaults.standard.removeObject(forKey: "pendingVideoTaskId")
return task.output.first!
case .failed:
throw VideoGenError.generationFailed(task.failure ?? "Unknown")
default: continue
}
}
throw VideoGenError.timeout
}
}
Android: WorkManager з CoroutineWorker — правильний вибір для довгих фонових завдань. Polling у doWork(), Result.retry() при PROCESSING, Result.success(outputData) при SUCCEEDED.
Оцінка реального прогресу без даних від API
Runway та більшість API не повертають процент завершення — лише статус. Але користувач хоче бачити прогрес. Рішення: імітований прогрес-бар на основі типового часу генерування.
Запускаємо таймер з моменту початку. Знаючи, що середній час — 60 секунд, анімуємо прогрес до 95% за 55 секунд, потім зупиняємо та чекаємо реальної відповіді. При успіху — швидко добігаємо до 100%. Це краще, ніж спіннер без контексту.
Завантаження та відтворення результату
Runway повертає URL тимчасового файлу (TTL зазвичай 24–48 годин). Не полагаємо на нього — одразу скачуємо в локальне сховище.
// Android: завантаження та кеш відео
class VideoDownloader(private val context: Context) {
suspend fun downloadAndCache(remoteUrl: String, videoId: String): File {
val cacheDir = File(context.filesDir, "generated_videos")
cacheDir.mkdirs()
val file = File(cacheDir, "$videoId.mp4")
// Завантажуємо та зберігаємо в файл
return file
}
}
Зберігаємо в app cache directory (або user documents на запит). Video player — ExoPlayer на Android, AVPlayer на iOS.
Збереження стану та відновлення
Якщо програма впаде під час polling — задача продовжується на бекенді. При наступному відкритті:
// Перевіряємо, чи є невиконані задачі при запуску програми
func checkPendingGenerations() async {
guard let taskId = UserDefaults.standard.string(forKey: "pendingVideoTaskId") else { return }
let task = try? await runwayClient.getTask(id: taskId)
if task?.status == .succeeded {
showNotification("Video ready: \(task?.output.first ?? "")")
}
}
Юридичні та допустимі вміст
Runway, Kling вимагають умов, що згенеровані відео не будуть використовуватися для дезінформації, контенту без згоди, насильства. Клієнт повинен валідувати промпт перед відправкою (фільтрація ключових слів). Якщо детектовано — відклоняємо на клієнті перед API-викликом, не навантажуємо бекенд.
Терміни
Базовий флоу генерування (інтеграція API, polling, відтворення) — 4–6 днів. З оцінкою прогресу, відновленням стану, кешуванням, спільним доступом в соцмережі — 2–3 тижні. Вартість залежить від постачальника та очікуваного обсягу.







