Какие модели Speech-to-Text вы используете?

Основная модель — Whisper (base/large) с квантизацией int8. Для акцентов — fine-tuning на данных заказчика. Дополнительно используем DeepFilterNet для предварительной очистки аудио.

Как система обрабатывает команды с паузами?

Используем VAD (voice activity detection) с конфигурируемым таймаутом. Если пользователь делает паузу более 5 секунд, система запрашивает подтверждение. Для людей с заиканием таймаут увеличен до 10 секунд.

Можно ли интегрировать голосовое управление с существующим CRM?

Да, через REST API или WebSocket. Мы подключаемся к любому приложению, которое поддерживает программное выполнение команд — от 1С до Bitrix24.

Требуется ли специальное оборудование?

Нет, достаточно микрофона (встроенного или внешнего). Обработка происходит на сервере или локально — для конфиденциальности можем развернуть всё на вашем оборудовании.

Как вы тестируете систему с пользователями с ОВЗ?

Привлекаем фокус-группу из 10–15 человек с разными типами нарушений. Проводим A/B-тестирование, замеряем точность и удовлетворённость. На основе результатов дорабатываем модель и интерфейс.

Какие модели Speech-to-Text вы используете?

Основная модель — Whisper (base/large) с квантизацией int8. Для акцентов — fine-tuning на данных заказчика. Дополнительно используем DeepFilterNet для предварительной очистки аудио.

Как система обрабатывает команды с паузами?

Используем VAD (voice activity detection) с конфигурируемым таймаутом. Если пользователь делает паузу более 5 секунд, система запрашивает подтверждение. Для людей с заиканием таймаут увеличен до 10 секунд.

Можно ли интегрировать голосовое управление с существующим CRM?

Да, через REST API или WebSocket. Мы подключаемся к любому приложению, которое поддерживает программное выполнение команд — от 1С до Bitrix24.

Требуется ли специальное оборудование?

Нет, достаточно микрофона (встроенного или внешнего). Обработка происходит на сервере или локально — для конфиденциальности можем развернуть всё на вашем оборудовании.

Как вы тестируете систему с пользователями с ОВЗ?

Привлекаем фокус-группу из 10–15 человек с разными типами нарушений. Проводим A/B-тестирование, замеряем точность и удовлетворённость. На основе результатов дорабатываем модель и интерфейс.

Голосовое управление интерфейсами для людей с ОВЗ: кастомные AI-решения

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Голосовое управление интерфейсами для людей с ОВЗ: кастомные AI-решения

Средний

~2-4 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Кастомное голосовое управление для людей с ОВЗ: архитектура и реализация

Представьте: пользователь с ДЦП пытается открыть выписку в мобильном банке. Каждое нажатие — минутное усилие. Штатный голосовой ассистент не понимает команду «покажи операции за март» — распознавание срывается на фоне работающего телевизора. Знакомо? Таких кейсов — десятки. Стандартные STT-модели дают точность 60–70% при шуме >40 дБ, а latency >2 секунд убивает UX. Для людей с ограниченной подвижностью каждая секунда ожидания — потеря концентрации.

Наша команда разрабатывает кастомные AI-системы голосового управления, которые решают эти проблемы. У нас более 5 лет опыта в accessibility и NLP, реализовано 30+ проектов для государственных и коммерческих заказчиков. Решения основаны на актуальных исследованиях, включая рекомендации WCAG и стандарт EN 301 549.

Голосовое управление — основное средство ввода для людей с нарушениями опорно-двигательного аппарата, слабовидящих, пожилых пользователей с когнитивными особенностями. Мы интегрируем систему с любым интерфейсом — от веб-приложений до нативных десктопных программ.

Почему стандартные голосовые ассистенты не подходят для ОВЗ?

Стандартные STT-системы (Siri, Алиса) не рассчитаны на специфику пользователей с ОВЗ: они не адаптированы под акценты или нарушения речи, не дают гибкого управления таймаутами и не интегрируются со скринридерами. Кроме того, latency в 2 секунды и более делает диалог неестественным. В шумной среде точность падает до 60–70%, а конфиденциальные данные уходят в облако.

Как мы строим pipeline распознавания?

Основой служит pipeline: аудиопоток → VAD → STT (Whisper) → классификатор команд (LLM) → исполнитель → TTS-фидбек. Ниже — key-компоненты на Python.

from faster_whisper import WhisperModel
from openai import AsyncOpenAI
import asyncio
import pyaudio
import numpy as np

class AccessibilityVoiceController:
    def __init__(self, app_commands: dict):
        self.stt = WhisperModel("base", device="cuda", compute_type="int8")
        self.llm = AsyncOpenAI()
        self.commands = app_commands  # {"открыть профиль": handler_fn, ...}
        self.wake_word = "помощник"

    async def listen_and_execute(self):
        audio_stream = self._open_mic_stream()

        while True:
            audio_chunk = audio_stream.read(frames=16000 * 3)  # 3 секунды
            audio_np = np.frombuffer(audio_chunk, dtype=np.int16).astype(np.float32) / 32768.0

            segments, _ = self.stt.transcribe(audio_np, language="ru", vad_filter=True)
            text = " ".join(s.text for s in segments).strip().lower()

            if not text or self.wake_word not in text:
                continue

            command_text = text.split(self.wake_word, 1)[-1].strip()
            await self.process_command(command_text)

    async def process_command(self, text: str):
        # Точное совпадение
        for cmd, handler in self.commands.items():
            if cmd in text:
                await handler()
                await self.speak_feedback(f"Выполняю: {cmd}")
                return

        # Нечёткое распознавание через LLM
        intent = await self.classify_intent_with_llm(text)
        if intent and intent in self.commands:
            await self.commands[intent]()
            await self.speak_feedback(f"Понял, выполняю")
        else:
            await self.speak_feedback("Не понял команду. Повторите, пожалуйста.")

    async def classify_intent_with_llm(self, text: str) -> str | None:
        available = list(self.commands.keys())
        response = await self.llm.chat.completions.create(
            model="gpt-4o-mini",
            messages=[{
                "role": "system",
                "content": f"Определи, какой команде соответствует фраза пользователя. Доступные команды: {available}. Верни только название команды или 'null'."
            }, {
                "role": "user",
                "content": text
            }]
        )
        result = response.choices[0].message.content.strip()
        return result if result != "null" else None

TTS обратная связь

Голосовой фидбек обязателен — пользователь должен слышать подтверждение. Используем Edge TTS (бесплатный, низкая задержка). Код:

import edge_tts
import tempfile
import pygame

async def speak_feedback(text: str, voice: str = "ru-RU-DmitryNeural"):
    """Озвучиваем системный ответ через Edge TTS (бесплатно)"""
    tts = edge_tts.Communicate(text=text, voice=voice, rate="+10%")

    with tempfile.NamedTemporaryFile(suffix=".mp3", delete=False) as f:
        await tts.save(f.name)
        pygame.mixer.music.load(f.name)
        pygame.mixer.music.play()
        while pygame.mixer.music.get_busy():
            await asyncio.sleep(0.1)

Навигация по веб-интерфейсу

Для веб-приложений используем Playwright: система эмулирует действия пользователя через браузерные команды. Пример маппинга:

# Команды для веб-навигации через Playwright/Selenium
class WebAccessibilityCommands:
    COMMAND_MAP = {
        "перейти в профиль": lambda p: p.goto("/profile"),
        "открыть настройки": lambda p: p.goto("/settings"),
        "увеличить шрифт": lambda p: p.evaluate("document.documentElement.style.fontSize = '120%'"),
        "уменьшить шрифт": lambda p: p.evaluate("document.documentElement.style.fontSize = '90%'"),
        "нажать кнопку сохранить": lambda p: p.click("button:has-text('Сохранить')"),
        "прокрутить вниз": lambda p: p.keyboard.press("End"),
        "прочитать страницу": lambda p: read_page_content(p),
        "заполнить поле имени": fill_name_field,
    }

Совместимость со скринридерами

Голосовое управление дополняет (не заменяет) скринридеры. Интеграция через ARIA live regions — обязательное требование для соответствия WCAG 2.1. Код:

<!-- Статус голосовых команд для скринридера -->
<div
    id="voice-status"
    role="status"
    aria-live="polite"
    aria-atomic="true"
    class="sr-only"
>
    <!-- Сюда JS вставляет: "Команда выполнена: открыть профиль" -->
</div>

<!-- Визуальный индикатор прослушивания -->
<button
    id="voice-toggle"
    aria-label="Голосовое управление"
    aria-pressed="false"
>
    <span class="mic-icon" aria-hidden="true"></span>
    <span class="sr-only">Активировать голосовое управление</span>
</button>

Кейс: голосовое управление для портала госуслуг

Для одного из региональных порталов мы реализовали систему голосовой навигации. Пользователи с нарушениями зрения могли полностью управлять порталом без клавиатуры и мыши. Основные сложности: акценты пользователей (южный диалект) и необходимость подтверждения действий. Решили через fine-tune Whisper на 1000 часов региональной речи и двухэтапное подтверждение опасных операций. Результат: точность распознавания 96%, время выполнения команды 1.2 секунды. Система прошла аудит на WCAG 2.1 AA.

Как мы адаптируем систему под индивидуальные потребности?

Для пользователей с нарушениями речи увеличиваем таймаут ожидания до 10 секунд и добавляем повторение. При акценте или диалекте выполняем fine-tune Whisper на данных заказчика. Для медленной речи уменьшаем порог VAD. При когнитивных особенностях используем простые однословные команды и голосовые подсказки. В шумной среде применяем DeepFilterNet перед STT, что повышает точность до 95%.

Тестирование с реальными пользователями

Мы привлекаем фокус-группу из 10–15 человек с различными типами ограничений. Каждый сценарий проверяется на трёх устройствах: ноутбук, планшет, смартфон. Собираем метрики: precision, recall, user satisfaction score. Итеративно дорабатываем модель и интерфейс.

Что входит в работу

Аудит текущего интерфейса на accessibility-ошибки.
Подбор моделей STT и TTS под ваш сценарий.
Разработка пайплайна распознавания + LLM-классификации.
Интеграция с frontend (React, Vue, чистый HTML).
Настройка горячих слов и профилей пользователей.
Тестирование с фокус-группой пользователей с ОВЗ.
Документация и обучение вашей команды.

Почему наше решение эффективнее стандартных ассистентов?

Параметр	Наше решение	Стандартные ассистенты (Siri, Алиса)
Точность в шумной среде	95%	70%
Время отклика на команду	<500 мс	>2 сек
Кастомизация под акцент	Да (fine-tune)	Нет
Интеграция со скринридерами	Полная, через ARIA	Частичная
Конфиденциальность данных	Локальный сервер или on-premise	Облачные серверы

Наше решение на 40% точнее стандартных STT-систем при шумах, а LLM-классификация снижает число ложных срабатываний в 2 раза. Экономия на вычислительных ресурсах — до 80% за счёт кеширования частых команд.

Готовы обсудить ваш проект? Свяжитесь с нами — получите консультацию в течение дня. Закажите демо-версию для тестирования на своих данных.

Мы гарантируем, что итоговое решение пройдёт аудит на соответствие WCAG 2.1 AA. Опыт нашей команды подтверждён 30+ успешными проектами и сертификацией в области accessibility.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.