Реалізація автоматичного перекладу субтитрів
Переклад субтитрів—завдання з жорсткими обмеженнями, які відрізняють його від звичайного машинного перекладу: довжина рядка, тайминг, синхронізація з мовою, збереження стилю.
Технічні обмеження субтитрів
Формат SRT/VTT накладає вимоги на переклад:
- Максимальна довжина рядка: 42 символи (стандарт Netflix) або 84 символи (2 рядки)
- Тривалість показу: 1–7 секунд на блок субтитра
- Швидкість читання: ≤17 символів/секунду для кіно, ≤20 для документального
LLM повинен не просто перекладати, але укладатися в ці обмеження.
Pipeline перекладу
[SRT/VTT файл]
→ [Парсинг: субтитри з таймингом]
→ [Батчинг: групи по 20–30 субтитрів для контексту]
→ [LLM переклад з обмеженнями довжини]
→ [Пост-перевірка: довжина рядка, швидкість читання]
→ [Авто-скорочення при перевищенні ліміту]
→ [Складання назад у SRT/VTT]
Батчинг за групами важливий: модель бачить контекст сусідніх субтитрів і перекладає зв'язно, без розриву смислу між блоками.
Промпт для перекладу з обмеженнями
Перекладіть субтитри з англійської на українську.
Обмеження:
- Максимум 84 символи на блок (2 рядки по 42)
- Збережіть смисл, допускається адаптація
- Не використовуйте лапки, якщо їх нема в оригіналі
- Збережіть власні імена
Підтримувані мови та моделі
Для російської, української, європейських мов—GPT-4o-mini (оптимальне співвідношення якості та швидкості). Для рідких мов (суахілі, в'єтнамська, гінді)—NLLB-200 (Meta) як запасний варіант або GPT-4o для критично важливого контенту.
Обробка 90-хвилинного фільму (≈1200 субтитрів): 30–60 секунд, вартість < $0.05 на мову з gpt-4o-mini.







