Скільки часу займає розгортання?

Базове розгортання займає 2-3 дні, з чергою та API — 5-7 днів, повна production-система — до 2 тижнів. Терміни залежать від складності інтеграції з вашою інфраструктурою.

Яке обладнання потрібне для Whisper?

Для навантаження до 10 годин/день достатньо RTX 3080 з 10GB VRAM, для 100+ годин — RTX 4090 або два A10G. Ми допомагаємо підібрати конфігурацію під ваш бюджет та обсяг.

Чи можна використовувати Whisper з іншими мовами?

Так, faster-whisper підтримує 99+ мов з автоматичним визначенням мови. Ми налаштовуємо VAD-фільтр та параметри мови для підвищення точності.

Як забезпечується надійність системи?

Використовуємо Celery з retry, Redis для черг, автоматичний перезапуск воркерів та моніторинг через Prometheus+Grafana. При відмові GPU задача автоматично перенаправляється.

Чому self-hosted дешевший за хмарний API?

При обсязі від 3000 хвилин/місяць вартість знижується в 3-6 разів, оскільки ви платите лише за оренду GPU, а не за кожну хвилину обробки. Плюс повний контроль над даними.

Скільки часу займає розгортання?

Базове розгортання займає 2-3 дні, з чергою та API — 5-7 днів, повна production-система — до 2 тижнів. Терміни залежать від складності інтеграції з вашою інфраструктурою.

Яке обладнання потрібне для Whisper?

Для навантаження до 10 годин/день достатньо RTX 3080 з 10GB VRAM, для 100+ годин — RTX 4090 або два A10G. Ми допомагаємо підібрати конфігурацію під ваш бюджет та обсяг.

Чи можна використовувати Whisper з іншими мовами?

Так, faster-whisper підтримує 99+ мов з автоматичним визначенням мови. Ми налаштовуємо VAD-фільтр та параметри мови для підвищення точності.

Як забезпечується надійність системи?

Використовуємо Celery з retry, Redis для черг, автоматичний перезапуск воркерів та моніторинг через Prometheus+Grafana. При відмові GPU задача автоматично перенаправляється.

Чому self-hosted дешевший за хмарний API?

При обсязі від 3000 хвилин/місяць вартість знижується в 3-6 разів, оскільки ви платите лише за оренду GPU, а не за кожну хвилину обробки. Плюс повний контроль над даними.

Розгортання OpenAI Whisper на виділеному сервері (Self-Hosted)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Розгортання OpenAI Whisper на виділеному сервері (Self-Hosted)

Середній

~3-5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Ми часто стикаємося з ситуацією: клієнту потрібно транскрибувати сотні годин аудіо щомісяця. Хмарні API або дорогі, або небезпечні — дані йдуть на сторону, а вартість зростає лінійно. Self-hosted Whisper дає повний контроль над даними, передбачувану вартість при великих обсягах та можливість тонкого налаштування під конкретний акцент або домен. Наприклад, на одному з проєктів ми розгорнули Whisper large-v3 на двох A10G, обробляючи до 8 годин аудіо на годину з точністю, порівнянною з хмарним рішенням, але з економією більш ніж у 4 рази. При цьому ми використовували VAD-фільтр та word_timestamps для синхронізації субтитрів. Така конфігурація дозволяє обробляти до 2000 годин аудіо на місяць на одному GPU-сервері. Для оцінки вашого навантаження зв'яжіться з нашим інженером — ми підберемо оптимальну конфігурацію.

Які проблеми вирішуємо?

Низька точність на шумних аудіо: VAD-фільтр та налаштування beam_size покращують розпізнавання. Ми налаштовуємо параметри під ваш тип аудіо.
Висока затримка при потоковому записі: використовуємо чанкування та WebSocket.
Відсутність моніторингу: Prometheus + Grafana відстежують GPU utilization та глибину черги.

Як розгорнути Whisper на виділеному сервері?

Архітектура production-розгортання включає кілька ключових компонентів:

Audio Input → Nginx → FastAPI Workers → Whisper Workers (GPU) → PostgreSQL
                          ↓                    ↓
                       Redis Queue         S3 Storage

Основні компоненти:

FastAPI — REST API для прийому завдань
Celery — черга асинхронної обробки
Redis — брокер завдань та кеш
faster-whisper — inference engine (CTranslate2)
PostgreSQL — зберігання транскрипцій та метаданих

Покрокова інструкція налаштування:

Встановіть Docker та NVIDIA Container Toolkit.
Зберіть образ воркера з faster-whisper та залежностями.
Запустіть Redis та PostgreSQL.
Розгорніть FastAPI-застосунок, що реалізує REST-ендпоїнти.
Запустіть Celery worker з прив'язкою до GPU через --gpus all.
Налаштуйте моніторинг через Prometheus та Grafana.
Протестуйте на тестових аудіофайлах, варіюючи мову та тривалість.

Процес налаштування воркера

Конфігурація Celery worker для faster-whisper з підтримкою retry та моніторингом:

from celery import Celery
from faster_whisper import WhisperModel

app = Celery('whisper_tasks', broker='redis://localhost:6379/0')
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")

@app.task(bind=True, max_retries=3)
def transcribe_audio(self, file_path: str, language: str = None):
    try:
        segments, info = model.transcribe(
            file_path,
            language=language,
            vad_filter=True,
            word_timestamps=True
        )
        return {
            "language": info.language,
            "duration": info.duration,
            "segments": [
                {"start": s.start, "end": s.end, "text": s.text}
                for s in segments
            ]
        }
    except Exception as exc:
        raise self.retry(exc=exc, countdown=60)

Вимоги до заліза

Для запуску Whisper необхідна дискретна відеокарта NVIDIA з підтримкою CUDA. Рекомендовані конфігурації залежно від навантаження:

Навантаження	GPU	RAM	Диск
до 10 годин/день	RTX 3080 10GB	16 GB	100 GB SSD
до 100 годин/день	RTX 4090	32 GB	500 GB SSD
більше 100 годин/день	2x A10G	64 GB	2 TB NVMe

Як вибрати правильну модель Whisper?

Вибір моделі впливає на точність та швидкість. У production найчастіше використовують large-v3, але для легких завдань підійде medium. Порівняння на основі даних faster-whisper:

Модель	VRAM	Швидкість (xRT)	WER (англ.)
tiny	~1 GB	~32x	~7.7%
base	~1 GB	~16x	~5.2%
small	~2 GB	~6x	~4.0%
medium	~5 GB	~2x	~3.0%
large-v3	~10 GB	~1x	~2.2%

*Швидкість відносно real-time (xRT: чим більше, тим швидше).

Моніторинг та надійність

Celery Flower для моніторингу черги завдань
Prometheus + Grafana для метрик GPU utilization та queue depth
Автоматичний перезапуск воркерів через systemd
Healthcheck endpoint з перевіркою доступності GPU

Приклад docker-compose.yml для розгортання

version: '3.8'
services:
  redis:
    image: redis:7
  db:
    image: postgres:15
  api:
    build: ./api
    depends_on: [redis, db]
  worker:
    build: ./worker
    deploy:
      resources:
        reservations:
          devices:
            - capabilities: [gpu]

Економічні переваги self-hosted Whisper

При транскрибації від 3000 хвилин на місяць власний сервер окупається швидше. Хмарні тарифи лінійні, тоді як self-hosted на A10G при завантаженні 50% дає економію в 3-6 разів. Крім того, ви отримуєте повний контроль над обробкою даних і можете кастомізувати модель під свою предметну область. Зниження витрат на транскрибацію безпосередньо покращує ROI. Замовте консультацію — ми розрахуємо економію для вашого обсягу.

Що входить у роботу

Аудит аудіо-навантаження та підбір конфігурації GPU.
Розгортання FastAPI + Celery + Redis + PostgreSQL.
Налаштування faster-whisper з VAD-фільтром та word_timestamps.
Інтеграція з S3-сумісним сховищем.
Моніторинг через Prometheus + Grafana.
Документація API та інструкція з експлуатації.
Навчання команди роботі з системою.

Терміни та вартість

Базове розгортання: 2–3 дні.
З чергою завдань та API: 5–7 днів.
Повна production-система з моніторингом: до 2 тижнів.
Вартість розраховується індивідуально під ваше навантаження та вимоги.

Наш досвід у розгортанні Whisper — понад 30 проєктів. Гарантуємо стабільну роботу та своєчасну підтримку. Якщо вас цікавить впровадження self-hosted Whisper, отримайте консультацію інженера — ми підготуємо пропозицію та оцінимо проєкт протягом дня.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.