Інтеграція Google Cloud Speech-to-Text API Google Cloud STT – зріле API з підтримкою 125+ мов, адаптивним словником та нативною інтеграцією з іншими сервісами GCP. WER англійською: 4-6%, російською чистому аудіо: 8-12%. ### Моделі та їх застосування | Модель | Латентність Найкращий сценарій | |--------|-------------|-----------------| | latest_long | висока | Довгі записи, подкасти | latest_short | низька | Короткі команди, пошук | | telephony | середня | Кол-центри, 8kHz аудіо | | medical_dictation | середня | Медичні диктування | | chirp | низька | Universal, усі домени | ### Базова інтеграція
from google.cloud import speech
client = speech.SpeechClient()
config = speech.RecognitionConfig(
encoding=speech.RecognitionConfig.AudioEncoding.LINEAR16,
sample_rate_hertz=16000,
language_code="ru-RU",
model="latest_long",
enable_automatic_punctuation=True,
enable_word_time_offsets=True,
use_enhanced=True,
)
```### Ключові можливості - Адаптивний словник (до 5 000 фраз) для підвищення точності на термінології - Діаризація розмовляючих з коробки (до 6 спікерів) - Потокове розпізнавання через gRPC із затримкою 200-400 мс - Інтеграція з Cloud Storage для batch-обробки Вартість: $0. Безкоштовний тариф - 60 хвилин/місяць. ### Терміни інтеграції Базова інтеграція: 1–2 дні. З адаптивним словником та діаризацією – 3–4 дні.







