Развёртывание OpenAI Whisper на выделенном сервере (Self-Hosted)

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Предлагаемые услуги

Показано 1 из 1 услугВсе 1566 услуг

Средняя

~3-5 рабочих дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1221
Разработка веб-приложения для компании FEEDME
1163
Разработка веб-сайта для компании БЕЛФИНГРУПП
857
Разработка интернет магазина для компании FURNORO
1063
Разработка логотипа компании B2B Advance
561
Разработка веб-приложения для компании Enviok
829

Показать больше работ

Развёртывание OpenAI Whisper на выделенном сервере (Self-Hosted)

Self-hosted Whisper даёт полный контроль над данными, предсказуемую стоимость при больших объёмах и возможность тонкой настройки под конкретный акцент или домен. При транскрибации 100+ часов аудио в месяц собственный сервер окупается быстрее облачного API.

Архитектура production-развёртывания

Audio Input → Nginx → FastAPI Workers → Whisper Workers (GPU) → PostgreSQL
                          ↓                    ↓
                       Redis Queue         S3 Storage

Основные компоненты:

FastAPI — REST API для приёма задач
Celery — очередь асинхронной обработки
Redis — брокер задач и кэш
faster-whisper — inference engine (CTranslate2)
PostgreSQL — хранение транскрипций и метаданных

Конфигурация Celery worker

from celery import Celery
from faster_whisper import WhisperModel

app = Celery('whisper_tasks', broker='redis://localhost:6379/0')
model = WhisperModel("large-v3", device="cuda", compute_type="int8_float16")

@app.task(bind=True, max_retries=3)
def transcribe_audio(self, file_path: str, language: str = None):
    try:
        segments, info = model.transcribe(
            file_path,
            language=language,
            vad_filter=True,
            word_timestamps=True
        )
        return {
            "language": info.language,
            "duration": info.duration,
            "segments": [
                {"start": s.start, "end": s.end, "text": s.text}
                for s in segments
            ]
        }
    except Exception as exc:
        raise self.retry(exc=exc, countdown=60)

Требования к железу

Нагрузка	GPU	RAM	Диск
до 10 часов/день	RTX 3080 10GB	16 GB	100 GB SSD
до 100 часов/день	RTX 4090	32 GB	500 GB SSD
более 100 часов/день	2x A10G	64 GB	2 TB NVMe

Мониторинг и надёжность

Celery Flower для мониторинга очереди задач
Prometheus + Grafana для метрик GPU utilization и queue depth
Автоматический рестарт воркеров через systemd
Healthcheck endpoint с проверкой GPU доступности

Оценка стоимости

AWS API Whisper: $0.006/минута. Self-hosted на A10G (аренда ~$1.5/час): при загрузке 50% — ~$0.001/минута. Окупаемость при объёме от 3 000 минут/месяц.

Сроки реализации

Базовое развёртывание: 2–3 дня
С очередью задач и API: 5–7 дней
Полная production-система с мониторингом: 2 недели