Какие языки поддерживает система протоколирования?

Базово поддерживается русский и английский. Whisper large-v3 распознаёт 99+ языков, но для русского и английского точность максимальная. При необходимости дообучаем модель под отраслевую лексику за 1-2 недели.

Как система определяет, кто что сказал?

Используем pyannote.audio 3.1 — модель диаризации, которая разделяет аудиопоток по голосам. После транскрибации Whisper мы сопоставляем временные метки и получаем текст с привязкой к SPEAKER_00, SPEAKER_01 и т.д. При интеграции с календарём подставляем реальные имена участников.

Нужно ли устанавливать дополнительное ПО на компьютеры сотрудников?

Нет. Всё работает на серверной стороне. Для Zoom и Teams используем входящие webhooks от платформ, для Google Meet — подписку на события Google Workspace. Участникам ничего устанавливать не нужно.

Как обрабатываются конфиденциальные данные встреч?

Данные не покидают ваш контур. Мы разворачиваем систему на вашей инфраструктуре или в изолированном облаке. Whisper и LLM (GPT-4o или локальная модель) работают внутри периметра. Все соединения зашифрованы, аудио удаляется после обработки.

Что входит в гарантийную поддержку после внедрения?

Предоставляем 3 месяца гарантии на работоспособность пайплайна. Исправляем баги, адаптируем под обновления API Zoom/Teams, помогаем с дообучением моделей. Затем опциональное продление — скидка 20% на SLA-поддержку.

Какие языки поддерживает система протоколирования?

Базово поддерживается русский и английский. Whisper large-v3 распознаёт 99+ языков, но для русского и английского точность максимальная. При необходимости дообучаем модель под отраслевую лексику за 1-2 недели.

Как система определяет, кто что сказал?

Используем pyannote.audio 3.1 — модель диаризации, которая разделяет аудиопоток по голосам. После транскрибации Whisper мы сопоставляем временные метки и получаем текст с привязкой к SPEAKER_00, SPEAKER_01 и т.д. При интеграции с календарём подставляем реальные имена участников.

Нужно ли устанавливать дополнительное ПО на компьютеры сотрудников?

Нет. Всё работает на серверной стороне. Для Zoom и Teams используем входящие webhooks от платформ, для Google Meet — подписку на события Google Workspace. Участникам ничего устанавливать не нужно.

Как обрабатываются конфиденциальные данные встреч?

Данные не покидают ваш контур. Мы разворачиваем систему на вашей инфраструктуре или в изолированном облаке. Whisper и LLM (GPT-4o или локальная модель) работают внутри периметра. Все соединения зашифрованы, аудио удаляется после обработки.

Что входит в гарантийную поддержку после внедрения?

Предоставляем 3 месяца гарантии на работоспособность пайплайна. Исправляем баги, адаптируем под обновления API Zoom/Teams, помогаем с дообучением моделей. Затем опциональное продление — скидка 20% на SLA-поддержку.

Реализация AI-автоматизации протоколирования совещаний

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Реализация AI-автоматизации протоколирования совещаний

Средний

~1-2 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1360
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Автоматизация протоколирования встреч с AI

Ручное протоколирование совещаний отнимает 15–25% времени участников. Компании теряют до 15% бюджета на неэффективные встречи и ручное протоколирование. В типичной организации с 50 встречами в неделю на протоколирование уходит до 20 человеко-часов, а до 30% задач теряются или дублируются. При этом в протоколах теряются важные решения, сроки срываются, ответственность размывается. Мы решаем эту проблему через пайплайн: аудиозапись → диаризация → транскрипция → NLP-извлечение → структурированный протокол. Всё работает в реальном времени или постфактум, интегрируется с Zoom, Google Meet, MS Teams, Slack, Jira и Notion. Наше решение обеспечивает точность извлечения задач в 2-3 раза выше, чем готовые сервисы, за счёт кастомной NLP-обработки.

С какими проблемами сталкиваются команды?

Нет единого источника правды. Участники помнят встречу по-разному. Решения пересматриваются, задачи дублируются.
Транскрибация без диаризации. Простые сервисы вроде Otter.ai не разделяют реплики спикеров — протокол нечитаем.
Интеграция с Task-трекерами. Даже если транскрипция есть, задачи приходится переносить в Jira/Notion руками.

Мы закрываем все три точки. Наш пайплайн использует Whisper large-v3 (качество транскрипции русского языка — WER ~4.5% на чистых записях), pyannote.audio 3.1 для диаризации (DER ~8% на многоканальных конференциях) и GPT-4o для извлечения структуры. В сложных сценариях вместо GPT-4o можно развернуть локальную LLaMA 3 70B — конфиденциальные данные не покидают периметр.

Как мы настраиваем AI-протоколирование под вашу инфраструктуру?

Типовой проект занимает 4–6 недель и включает:

Аудит текущих встреч — собираем примеры записей, выявляем типичные паттерны (регулярные митинги, code review, one-on-one).
Выбор модели — для коротких встреч (до 1 часа) достаточно Whisper + GPT-4o, для длинных (3+ часа) используем чанкование по VAD + параллельную обработку.
Настройка интеграций — через API Zoom Recording, Google Workspace Events, Microsoft Graph. На выходе — webhook, который запускает пайплайн.
Формат протокола — Markdown для Confluence, кастомные шаблоны для Notion, автоматическое создание задач в Jira с дедлайнами из транскрипта.

Разберём один кейс. Клиент — финтех-компания с 200+ сотрудниками, еженедельные all-hands на 150 человек. Ручное протоколирование занимало 8 человеко-часов в неделю. Мы развернули пайплайн на их Kubernetes с GPU T4. Результат:

Время обработки 1 часа записи — 12 минут (включая диаризацию и NLP).
Точность распознавания имён — 97% после fine-tuning Whisper на корпоративных терминах.
Экономия — 7 часов в неделю только на подготовке протоколов.

Почему готовые решения не подходят для сложных сценариев?

Сравним ключевые параметры:

Параметр	Готовые сервисы (Otter, Fireflies)	Наше решение
Диаризация	DER 15–25%	DER <10% (pyannote 3.1)
Языковая поддержка	Русский — база, WER >15%	WER <5% на русском
Интеграция с Jira	Только через Zapier	Нативный API, кастомные поля
Data residency	Только облако	On-premise или VPC
Fine-tuning	Нет	LoRA для вашей лексики

Для стартапов с 5–10 встречами в неделю готовые сервисы ок. Но для enterprise с конфиденциальными данными, специфичной терминологией и требованиями к compliance — наше решение даёт контроль и точность.

Вариант развёртывания	Производительность	Безопасность	Стоимость
Облако (VPC)	Высокая (GPU T4)	Данные в изолированном облаке	Предсказуемая
On-premise	Максимальная (любое GPU)	Полный контроль	Инвестиция + поддержка
Гибрид	Сбалансированная	Гибкая	Индивидуально

Что входит в реализацию?

Пайплайн транскрипции + диаризации — код на Python с поддержкой CUDA, покрытый тестами.
NLP-модуль извлечения решений и задач — промпты, протестированные на 500+ транскриптах.
Интеграции — Zoom/Teams/Google Meet на вход, Notion/Confluence/Jira/Slack на выход.
Документация — README, архитектурная схема, инструкция по эксплуатации.
Обучение команды — воркшоп на 2 часа.
Гарантия 3 месяца — исправление багов, адаптация под обновления API.

Технические детали пайплайна

Мы используем Whisper large-v3 для транскрипции, pyannote.audio 3.1 для диаризации и GPT-4o для NLP. Код оптимизирован для GPU T4/V100, поддерживает параллельную обработку длинных записей. Все компоненты контейнеризированы и разворачиваются через Docker Compose или Kubernetes.

Оценим ваш проект бесплатно. Свяжитесь — расскажем, как сократить время на протоколирование в 5–10 раз. Получите консультацию нашего AI-инженера.

Подробности реализации

Транскрибация с диаризацией

import whisper
from pyannote.audio import Pipeline
import torch

class MeetingTranscriber:
    def __init__(self):
        self.whisper = whisper.load_model("large-v3", device="cuda")
        self.diarizer = Pipeline.from_pretrained(
            "pyannote/speaker-diarization-3.1",
            use_auth_token="HF_TOKEN"
        )

    def transcribe_with_speakers(self, audio_path: str) -> list[dict]:
        diarization = self.diarizer(audio_path)
        segments_by_speaker = [
            {"speaker": turn.speaker, "start": turn.start, "end": turn.end}
            for turn, _, _ in diarization.itertracks(yield_label=True)
        ]

        result = self.whisper.transcribe(audio_path, language="ru", word_timestamps=True)

        transcript = []
        for seg in result["segments"]:
            speaker = self._find_speaker(seg["start"], segments_by_speaker)
            transcript.append({
                "speaker": speaker,
                "start": seg["start"],
                "end": seg["end"],
                "text": seg["text"].strip()
            })

        return transcript

    def _find_speaker(self, timestamp: float, diar_segments: list) -> str:
        for s in diar_segments:
            if s["start"] <= timestamp <= s["end"]:
                return s["speaker"]
        return "UNKNOWN"

NLP-обработка и извлечение структуры

from openai import AsyncOpenAI
import json

client = AsyncOpenAI()

async def extract_meeting_structure(transcript: list[dict]) -> dict:
    formatted = "\n".join([
        f"[{seg['speaker']} | {int(seg['start']//60):02d}:{int(seg['start']%60):02d}] {seg['text']}"
        for seg in transcript
    ])

    response = await client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "system",
            "content": """Ты — ассистент для протоколирования встреч.
            Проанализируй транскрипт и верни JSON:
            {
              "summary": "краткое резюме 2-3 предложения",
              "participants": ["SPEAKER_00 = Иван Петров", ...],
              "agenda_items": [{"topic": "...", "discussion": "..."}],
              "decisions": [{"decision": "...", "context": "..."}],
              "action_items": [{"task": "...", "owner": "...", "deadline": "..."}],
              "next_meeting": "дата/условие следующей встречи если обсуждалась"
            }"""
        }, {
            "role": "user",
            "content": f"Транскрипт встречи:\n\n{formatted[:8000]}"
        }],
        response_format={"type": "json_object"}
    )

    return json.loads(response.choices[0].message.content)

Генерация протокола и экспорт

def format_meeting_minutes(structure: dict, transcript: list[dict]) -> str:
    date = datetime.now().strftime("%d.%m.%Y")
    duration_min = int(transcript[-1]["end"] / 60) if transcript else 0

    md = f"""## Протокол встречи от {date}

**Продолжительность:** {duration_min} минут
**Участники:** {", ".join(structure.get("participants", []))}

### Краткое резюме

{structure.get("summary", "")}

### Принятые решения

"""
    for d in structure.get("decisions", []):
        md += f"- **{d['decision']}**\n  _{d.get('context', '')}_\n\n"

    md += "### Задачи\n\n"
    md += "| Задача | Ответственный | Срок |\n|--------|--------------|------|\n"
    for item in structure.get("action_items", []):
        md += f"| {item['task']} | {item.get('owner', '—')} | {item.get('deadline', '—')} |\n"

    return md

class MinutesExporter:
    async def to_notion(self, minutes: str, database_id: str): ...
    async def to_confluence(self, minutes: str, space_key: str): ...
    async def to_jira_tasks(self, action_items: list, project_key: str): ...
    async def to_slack(self, summary: str, channel_id: str): ...
    async def to_email(self, minutes: str, recipients: list[str]): ...

Интеграция через webhook (пример для Zoom)

@app.post("/webhook/zoom/recording")
async def zoom_recording_webhook(payload: dict):
    if payload["event"] == "recording.completed":
        recording_url = payload["payload"]["object"]["recording_files"][0]["download_url"]
        meeting_id = payload["payload"]["object"]["uuid"]
        asyncio.create_task(process_meeting_recording(meeting_id, recording_url))
    return {"status": "ok"}

Сроки

Базовый пайплайн (транскрипция + NLP + Markdown) — 1–2 недели. Полноценная система с интеграциями Zoom/Teams/Notion/Jira — 4–6 недель. Точные сроки зависят от количества источников записей и требований к кастомизации.

Мы работаем на рынке AI-автоматизации более 5 лет, реализовали 30+ проектов для финансового сектора, ритейла и IT-продуктов. Предоставляем гарантию на работоспособность пайплайна.

Для получения консультации и оценки вашего проекта свяжитесь с нами. Закажите бесплатный аудит ваших встреч — мы покажем, сколько времени вы сэкономите.

Распознавание и синтез речи: ASR, TTS, клонирование голоса

Заказчик приходит с задачей: транскрибировать 40 000 часов колл-центра за неделю. Штатный облачный ASR (Google Speech-to-Text) выдаёт WER 28% на отраслевой лексике и стоит ощутимо дорого при таких объёмах. Задача — снизить WER ниже 10% и перейти на self-hosted инференс.

Типовые проблемы, с которыми приходят

WER не сходится к нужной метрике. Чаще всего виновата не архитектура, а данные: шумные аудио без нормализации уровня (-23 LUFS вместо стандарта), смешанные языки в одном канале, акцент, специфическая доменная лексика. Whisper large-v3 из коробки даёт WER 8–12% на чистом русском и проваливается до 25–35% на записях с PSTN-артефактами и узкополосным кодеком G.711.

Диаризация ломается при больше двух спикеров. pyannote/speaker-diarization-3.1 работает стабильно при 2–3 говорящих, но DER (Diarization Error Rate) растёт с 6% до 18–22% при 5+ участниках конференции. Проблема усугубляется перекрёстными репликами: по умолчанию min_duration_on=0.1 срезает короткие вставки.

Клонирование голоса — латентность или качество. XTTS v2 (Coqui) даёт натуральный голос, но при потоковой генерации stream_chunk_size=20 первый аудиочанк прилетает через 1.4–2.0 с — неприемлемо для интерактивных сценариев. StyleTTS2 и Kokoro быстрее, но требуют точной подготовки референсного аудио.

Как это решается на практике

Базовый стек для production-пайплайна:

ASR: openai/whisper-large-v3 или faster-whisper (CTranslate2-бэкенд, x4 скорость vs оригинал)
Диаризация: pyannote.audio 3.x + интеграция через whisperx для выравнивания по словам
TTS: XTTS v2 для качества, Edge-TTS или Silero для низкой латентности
Клонирование: XTTS v2 (3–6 с референсного аудио) или OpenVoice v2

Типичный пайплайн для колл-центра выглядит так: аудио из очереди Kafka → нормализация ffmpeg -af loudnorm до -23 LUFS → faster-whisper с beam_size=5, vad_filter=True → pyannote диаризация → постпроцессинг (пунктуация через deepmultilingualpunctuation) → запись в PostgreSQL с временными метками.

Кейс из практики. Финтех-компания с 12 000 звонков/день. Исходный WER на русском с банковской лексикой — 22% (Google STT). После fine-tuning whisper-medium на 200 часах размеченных записей через Hugging Face transformers + Seq2SeqTrainer с learning_rate=1e-5, warmup_steps=500 — WER упал до 7.3%. Инференс на одной A10G через faster-whisper с compute_type=float16 обрабатывает 40-минутный звонок за 55 секунд. Итоговая стоимость инференса — $0.0008/мин против $0.016/мин у облачного провайдера.

Дообучение Whisper на доменных данных

Когда общая модель не справляется, fine-tuning — первый инструмент. Минимальный датасет для заметного улучшения — 20–30 часов размеченного аудио в целевом домене. Разметку можно получить через итеративный процесс: прогнать через базовую модель → вручную исправить 10–15% ошибок → переобучить → повторить.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

Важно: при fine-tuning Whisper нужно замораживать encoder первые 1000 шагов (model.freeze_encoder()), иначе акустические признаки разъедутся раньше, чем decoder адаптируется к новой лексике.

Синтез речи: выбор под задачу

Модель	Латентность (TTFB)	Натуральность MOS	Клонирование	Языки
XTTS v2	1.2–2.0 с	4.1–4.3	Да, 3 с референса	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Да, требует адаптации	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Нет	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Нет	ru, en, de, и др.
Edge-TTS	~0.4 с (cloud)	4.0	Нет	100+

Для интерактивных ботов с требованием TTFB < 300 мс — Silero или Kokoro. Для озвучки контента, где важна натуральность — XTTS v2 с потоковой отдачей через WebSocket.

Процесс работы

Начинаем с аудит-сессии: берём 2–4 часа ваших записей, прогоняем через несколько моделей, замеряем WER/CER, смотрим на распределение ошибок по типам (лексические, акустические, язык). Это занимает 1–2 дня и сразу показывает, нужен ли fine-tuning или достаточно пост-обработки.

Далее — выбор архитектуры под ваш throughput: один GPU для 1000 мин/день или кластер с балансировщиком для 100 000+ мин/день. Деплой через Docker-контейнер с FastAPI или Triton Inference Server для батчированного инференса.

Сроки зависят от сложности: базовая интеграция готовой модели — 1–2 недели. Fine-tuning с подготовкой данных и валидацией — 4–8 недель. Полная разработка голосового пайплайна (ASR + диаризация + TTS + мониторинг) — 2–4 месяца.