Развёртывание OpenAI Whisper на выделенном сервере (Self-Hosted)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1 услугВсе 1566 услуг
Развёртывание OpenAI Whisper на выделенном сервере (Self-Hosted)
Средняя
~3-5 рабочих дней
Часто задаваемые вопросы
Направления AI-разработки
Этапы разработки AI-решения
Последние работы
  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1221
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1163
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    857
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1063
  • image_logo-advance_0.png
    Разработка логотипа компании B2B Advance
    561
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    829

Развёртывание OpenAI Whisper на выделенном сервере (Self-Hosted)

Self-hosted Whisper даёт полный контроль над данными, предсказуемую стоимость при больших объёмах и возможность тонкой настройки под конкретный акцент или домен. При транскрибации 100+ часов аудио в месяц собственный сервер окупается быстрее облачного API.

Архитектура production-развёртывания

Audio Input → Nginx → FastAPI Workers → Whisper Workers (GPU) → PostgreSQL
                          ↓                    ↓
                       Redis Queue         S3 Storage

Основные компоненты:

  • FastAPI — REST API для приёма задач
  • Celery — очередь асинхронной обработки
  • Redis — брокер задач и кэш
  • faster-whisper — inference engine (CTranslate2)
  • PostgreSQL — хранение транскрипций и метаданных

Конфигурация Celery worker

from celery import Celery
from faster_whisper import WhisperModel

app = Celery('whisper_tasks', broker='redis://localhost:6379/0')
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")

@app.task(bind=True, max_retries=3)
def transcribe_audio(self, file_path: str, language: str = None):
    try:
        segments, info = model.transcribe(
            file_path,
            language=language,
            vad_filter=True,
            word_timestamps=True
        )
        return {
            "language": info.language,
            "duration": info.duration,
            "segments": [
                {"start": s.start, "end": s.end, "text": s.text}
                for s in segments
            ]
        }
    except Exception as exc:
        raise self.retry(exc=exc, countdown=60)

Требования к железу

Нагрузка GPU RAM Диск
до 10 часов/день RTX 3080 10GB 16 GB 100 GB SSD
до 100 часов/день RTX 4090 32 GB 500 GB SSD
более 100 часов/день 2x A10G 64 GB 2 TB NVMe

Мониторинг и надёжность

  • Celery Flower для мониторинга очереди задач
  • Prometheus + Grafana для метрик GPU utilization и queue depth
  • Автоматический рестарт воркеров через systemd
  • Healthcheck endpoint с проверкой GPU доступности

Оценка стоимости

AWS API Whisper: $0.006/минута. Self-hosted на A10G (аренда ~$1.5/час): при загрузке 50% — ~$0.001/минута. Окупаемость при объёме от 3 000 минут/месяц.

Сроки реализации

  • Базовое развёртывание: 2–3 дня
  • С очередью задач и API: 5–7 дней
  • Полная production-система с мониторингом: 2 недели