Развёртывание OpenAI Whisper на выделенном сервере (Self-Hosted)
Self-hosted Whisper даёт полный контроль над данными, предсказуемую стоимость при больших объёмах и возможность тонкой настройки под конкретный акцент или домен. При транскрибации 100+ часов аудио в месяц собственный сервер окупается быстрее облачного API.
Архитектура production-развёртывания
Audio Input → Nginx → FastAPI Workers → Whisper Workers (GPU) → PostgreSQL
↓ ↓
Redis Queue S3 Storage
Основные компоненты:
- FastAPI — REST API для приёма задач
- Celery — очередь асинхронной обработки
- Redis — брокер задач и кэш
- faster-whisper — inference engine (CTranslate2)
- PostgreSQL — хранение транскрипций и метаданных
Конфигурация Celery worker
from celery import Celery
from faster_whisper import WhisperModel
app = Celery('whisper_tasks', broker='redis://localhost:6379/0')
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")
@app.task(bind=True, max_retries=3)
def transcribe_audio(self, file_path: str, language: str = None):
try:
segments, info = model.transcribe(
file_path,
language=language,
vad_filter=True,
word_timestamps=True
)
return {
"language": info.language,
"duration": info.duration,
"segments": [
{"start": s.start, "end": s.end, "text": s.text}
for s in segments
]
}
except Exception as exc:
raise self.retry(exc=exc, countdown=60)
Требования к железу
| Нагрузка | GPU | RAM | Диск |
|---|---|---|---|
| до 10 часов/день | RTX 3080 10GB | 16 GB | 100 GB SSD |
| до 100 часов/день | RTX 4090 | 32 GB | 500 GB SSD |
| более 100 часов/день | 2x A10G | 64 GB | 2 TB NVMe |
Мониторинг и надёжность
- Celery Flower для мониторинга очереди задач
- Prometheus + Grafana для метрик GPU utilization и queue depth
- Автоматический рестарт воркеров через systemd
- Healthcheck endpoint с проверкой GPU доступности
Оценка стоимости
AWS API Whisper: $0.006/минута. Self-hosted на A10G (аренда ~$1.5/час): при загрузке 50% — ~$0.001/минута. Окупаемость при объёме от 3 000 минут/месяц.
Сроки реализации
- Базовое развёртывание: 2–3 дня
- С очередью задач и API: 5–7 дней
- Полная production-система с мониторингом: 2 недели







