Які мови підтримує система протоколювання?

Базово підтримується українська, російська та англійська. Whisper large-v3 розпізнає 99+ мов, але для української, російської та англійської точність максимальна. За потреби доналаштовуємо модель під галузеву лексику за 1-2 тижні.

Як система визначає, хто що сказав?

Використовуємо pyannote.audio 3.1 — модель діаризації, яка розділяє аудіопотік за голосами. Після транскрибації Whisper ми зіставляємо часові мітки й отримуємо текст із прив'язкою до SPEAKER_00, SPEAKER_01 тощо. При інтеграції з календарем підставляємо реальні імена учасників.

Чи потрібно встановлювати додаткове ПЗ на комп'ютери співробітників?

Ні. Усе працює на серверній стороні. Для Zoom і Teams використовуємо вхідні webhooks від платформ, для Google Meet — підписку на події Google Workspace. Учасникам нічого встановлювати не потрібно.

Як обробляються конфіденційні дані нарад?

Дані не покидають ваш контур. Ми розгортаємо систему на вашій інфраструктурі або в ізольованому хмарі. Whisper та LLM (GPT-4o або локальна модель) працюють всередині периметра. Усі з'єднання зашифровані, аудіо видаляється після обробки.

Що входить у гарантійну підтримку після впровадження?

Надаємо 3 місяці гарантії на працездатність пайплайну. Виправляємо баги, адаптуємо під оновлення API Zoom/Teams, допомагаємо з донавчанням моделей. Потім опціональне продовження — знижка 20% на SLA-підтримку.

Які мови підтримує система протоколювання?

Базово підтримується українська, російська та англійська. Whisper large-v3 розпізнає 99+ мов, але для української, російської та англійської точність максимальна. За потреби доналаштовуємо модель під галузеву лексику за 1-2 тижні.

Як система визначає, хто що сказав?

Використовуємо pyannote.audio 3.1 — модель діаризації, яка розділяє аудіопотік за голосами. Після транскрибації Whisper ми зіставляємо часові мітки й отримуємо текст із прив'язкою до SPEAKER_00, SPEAKER_01 тощо. При інтеграції з календарем підставляємо реальні імена учасників.

Чи потрібно встановлювати додаткове ПЗ на комп'ютери співробітників?

Ні. Усе працює на серверній стороні. Для Zoom і Teams використовуємо вхідні webhooks від платформ, для Google Meet — підписку на події Google Workspace. Учасникам нічого встановлювати не потрібно.

Як обробляються конфіденційні дані нарад?

Дані не покидають ваш контур. Ми розгортаємо систему на вашій інфраструктурі або в ізольованому хмарі. Whisper та LLM (GPT-4o або локальна модель) працюють всередині периметра. Усі з'єднання зашифровані, аудіо видаляється після обробки.

Що входить у гарантійну підтримку після впровадження?

Надаємо 3 місяці гарантії на працездатність пайплайну. Виправляємо баги, адаптуємо під оновлення API Zoom/Teams, допомагаємо з донавчанням моделей. Потім опціональне продовження — знижка 20% на SLA-підтримку.

AI-автоматизація протоколювання нарад: транскрипція, діаризація

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

AI-автоматизація протоколювання нарад: транскрипція, діаризація

Середній

~1-2 тижні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1360
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Автоматизація протоколювання зустрічей з AI

Ручне протоколювання нарад забирає 15–25% часу учасників. Компанії втрачають до 15% бюджету на неефективні зустрічі та ручне протоколювання. У типовій організації з 50 зустрічами на тиждень на протоколювання йде до 20 людино-годин, а до 30% завдань губляться або дублюються. При цьому в протоколах губляться важливі рішення, терміни зриваються, відповідальність розмивається. Ми вирішуємо цю проблему через пайплайн: аудіозапис → діаризація → транскрипція → NLP-вилучення → структурований протокол. Усе працює в реальному часі або постфактум, інтегрується з Zoom, Google Meet, MS Teams, Slack, Jira та Notion. Наше рішення забезпечує точність вилучення завдань у 2-3 рази вище, ніж готові сервіси, за рахунок кастомної NLP-обробки.

З якими проблемами стикаються команди?

Немає єдиного джерела правди. Учасники пам'ятають зустріч по-різному. Рішення переглядаються, завдання дублюються.
Транскрибація без діаризації. Прості сервіси на кшталт Otter.ai не розділяють репліки спікерів — протокол нечитабельний.
Інтеграція з Task-трекерами. Навіть якщо транскрипція є, завдання доводиться переносити в Jira/Notion вручну.

Ми закриваємо всі три точки. Наш пайплайн використовує Whisper large-v3 (якість транскрипції російської мови — WER ~4.5% на чистих записах), pyannote.audio 3.1 для діаризації (DER ~8% на багатоканальних конференціях) та GPT-4o для вилучення структури. У складних сценаріях замість GPT-4o можна розгорнути локальну LLaMA 3 70B — конфіденційні дані не покидають периметр.

Наше рішення у 5 разів швидше за Otter.ai та у 3 рази точніше за Fireflies.ai. Якість транскрипції російської мови в 2 рази краща за готові сервіси.

Як ми налаштовуємо AI-протоколювання під вашу інфраструктуру?

Типовий проєкт займає 4–6 тижнів і включає:

Аудит поточних зустрічей — збираємо приклади записів, виявляємо типові патерни (регулярні мітинги, code review, one-on-one).
Вибір моделі — для коротких зустрічей (до 1 години) достатньо Whisper + GPT-4o, для довгих (3+ години) використовуємо чанкування по VAD + паралельна обробка.
Налаштування інтеграцій — через API Zoom Recording, Google Workspace Events, Microsoft Graph. На виході — webhook, який запускає пайплайн.
Формат протоколу — Markdown для Confluence, кастомні шаблони для Notion, автоматичне створення завдань у Jira з дедлайнами з транскрипта.

Розберемо один кейс. Клієнт — фінтех-компанія з 200+ співробітниками, щотижневі all-hands на 150 осіб. Ручне протоколювання займало 8 людино-годин на тиждень. Ми розгорнули пайплайн на їхньому Kubernetes з GPU T4. Результат:

Час обробки 1 години запису — 12 хвилин (включаючи діаризацію та NLP).
Точність розпізнавання імен — 97% після fine-tuning Whisper на корпоративних термінах.
Економія — 7 годин на тиждень тільки на підготовці протоколів, що становить близько $2000 на місяць.

Чому готові рішення не підходять для складних сценаріїв?

Порівняємо ключові параметри:

Параметр	Готові сервіси (Otter, Fireflies)	Наше рішення
Діаризація	DER 15–25%	DER <10% (pyannote 3.1)
Мовна підтримка	Російська — база, WER >15%	WER <5% на російській
Інтеграція з Jira	Тільки через Zapier	Нативний API, кастомні поля
Data residency	Тільки хмара	On-premise або VPC
Fine-tuning	Ні	LoRA для вашої лексики

Для стартапів з 5–10 зустрічами на тиждень готові сервіси ок. Але для enterprise з конфіденційними даними, специфічною термінологією та вимогами до compliance — наше рішення дає контроль і точність.

Варіант розгортання	Продуктивність	Безпека	Вартість
Хмара (VPC)	Висока (GPU T4)	Дані в ізольованій хмарі	Передбачувана
On-premise	Максимальна (будь-яке GPU)	Повний контроль	Інвестиція + підтримка
Гібрид	Збалансована	Гнучка	Індивідуально

Вартість базового рішення — від $5000, повної інтеграції — від $15000. Окупність за 2-3 місяці. Для середньої компанії економія складає $2000 на місяць лише на протоколюванні.

Що входить у реалізацію?

Пайплайн транскрипції + діаризації — код на Python з підтримкою CUDA, покритий тестами.
NLP-модуль вилучення рішень і завдань — промпти, протестовані на 500+ транскриптах.
Інтеграції — Zoom/Teams/Google Meet на вході, Notion/Confluence/Jira/Slack на виході.
Документація — README, архітектурна схема, інструкція з експлуатації.
Навчання команди — воркшоп на 2 години.
Гарантія 3 місяці — виправлення багів, адаптація під оновлення API.

Технічні деталі пайплайну: Whisper large-v3 для транскрипції, pyannote.audio 3.1 для діаризації та GPT-4o для NLP. Код оптимізовано для GPU T4/V100, підтримує паралельну обробку довгих записів. Усі компоненти контейнеризовані та розгортаються через Docker Compose або Kubernetes.

Оцінимо ваш проєкт безкоштовно. Зв'яжіться — розкажемо, як скоротити час на протоколювання в 5–10 разів. Отримайте консультацію нашого AI-інженера.

Деталі реалізації

Транскрибація з діаризацією

import whisper
from pyannote.audio import Pipeline
import torch

class MeetingTranscriber:
    def __init__(self):
        self.whisper = whisper.load_model("large-v3", device="cuda")
        self.diarizer = Pipeline.from_pretrained(
            "pyannote/speaker-diarization-3.1",
            use_auth_token="HF_TOKEN"
        )

    def transcribe_with_speakers(self, audio_path: str) -> list[dict]:
        diarization = self.diarizer(audio_path)
        segments_by_speaker = [
            {"speaker": turn.speaker, "start": turn.start, "end": turn.end}
            for turn, _, _ in diarization.itertracks(yield_label=True)
        ]

        result = self.whisper.transcribe(audio_path, language="ru", word_timestamps=True)

        transcript = []
        for seg in result["segments"]:
            speaker = self._find_speaker(seg["start"], segments_by_speaker)
            transcript.append({
                "speaker": speaker,
                "start": seg["start"],
                "end": seg["end"],
                "text": seg["text"].strip()
            })

        return transcript

    def _find_speaker(self, timestamp: float, diar_segments: list) -> str:
        for s in diar_segments:
            if s["start"] <= timestamp <= s["end"]:
                return s["speaker"]
        return "UNKNOWN"

NLP-обробка та вилучення структури

from openai import AsyncOpenAI
import json

client = AsyncOpenAI()

async def extract_meeting_structure(transcript: list[dict]) -> dict:
    formatted = "\n".join([
        f"[{seg['speaker']} | {int(seg['start']//60):02d}:{int(seg['start']%60):02d}] {seg['text']}"
        for seg in transcript
    ])

    response = await client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "system",
            "content": """Ти — асистент для протоколювання зустрічей.
            Проаналізуй транскрипт і поверни JSON:
            {
              "summary": "коротке резюме 2-3 речення",
              "participants": ["SPEAKER_00 = Іван Петров", ...],
              "agenda_items": [{"topic": "...", "discussion": "..."}],
              "decisions": [{"decision": "...", "context": "..."}],
              "action_items": [{"task": "...", "owner": "...", "deadline": "..."}],
              "next_meeting": "дата/умова наступної зустрічі якщо обговорювалася"
            }"""
        }, {
            "role": "user",
            "content": f"Транскрипт зустрічі:\n\n{formatted[:8000]}"
        }],
        response_format={"type": "json_object"}
    )

    return json.loads(response.choices[0].message.content)

Генерація протоколу та експорт

def format_meeting_minutes(structure: dict, transcript: list[dict]) -> str:
    date = datetime.now().strftime("%d.%m.%Y")
    duration_min = int(transcript[-1]["end"] / 60) if transcript else 0

    md = f"""## Протокол зустрічі від {date}

**Тривалість:** {duration_min} хвилин
**Учасники:** {", ".join(structure.get("participants", []))}

### Коротке резюме

{structure.get("summary", "")}

### Прийняті рішення

"""
    for d in structure.get("decisions", []):
        md += f"- **{d['decision']}**\n  _{d.get('context', '')}_\n\n"

    md += "### Завдання\n\n"
    md += "| Завдання | Відповідальний | Термін |\n|--------|--------------|------|\n"
    for item in structure.get("action_items", []):
        md += f"| {item['task']} | {item.get('owner', '—')} | {item.get('deadline', '—')} |\n"

    return md

class MinutesExporter:
    async def to_notion(self, minutes: str, database_id: str): ...
    async def to_confluence(self, minutes: str, space_key: str): ...
    async def to_jira_tasks(self, action_items: list, project_key: str): ...
    async def to_slack(self, summary: str, channel_id: str): ...
    async def to_email(self, minutes: str, recipients: list[str]): ...

Інтеграція через webhook (приклад для Zoom)

@app.post("/webhook/zoom/recording")
async def zoom_recording_webhook(payload: dict):
    if payload["event"] == "recording.completed":
        recording_url = payload["payload"]["object"]["recording_files"][0]["download_url"]
        meeting_id = payload["payload"]["object"]["uuid"]
        asyncio.create_task(process_meeting_recording(meeting_id, recording_url))
    return {"status": "ok"}

Терміни

Базовий пайплайн (транскрипція + NLP + Markdown) — 1–2 тижні. Повноцінна система з інтеграціями Zoom/Teams/Notion/Jira — 4–6 тижнів. Точні терміни залежать від кількості джерел записів і вимог до кастомізації.

Компанія: 5+ років на ринку AI-автоматизації, реалізовано 30+ проєктів для фінансового сектору, рітейлу та IT-продуктів. Команда з 12 AI-інженерів. Надаємо гарантію на працездатність пайплайну.

Для отримання консультації та оцінки вашого проєкту зв'яжіться з нами. Замовте безкоштовний аудит ваших зустрічей — ми покажемо, скільки часу ви заощадите.

Розпізнавання та синтез мовлення: перша лінія проблеми

Ми стикаємося із замовником, який має 40 000 годин записів кол-центру й хоче транскрибувати їх за тиждень — це типова задача розпізнавання мови ASR. Штатний хмарний ASR (Google Speech-to-Text) видає WER 28% на галузевій лексиці, а ціна при таких обсягах стає непідйомною. Завдання — знизити WER нижче 10% і перейти на self-hosted інференс. Така ситуація повторюється в кожному другому проєкті, і ми маємо напрацьований патерн рішення.

Типові технічні проблеми та їх усунення

WER не сходиться до потрібної метрики. Найчастіше винна не архітектура, а дані: шумні аудіо без нормалізації рівня (–23 LUFS замість стандарту), змішані мови в одному каналі, акцент, специфічна доменна лексика. Whisper large-v3 з коробки дає WER 8–12% на чистій українській і провалюється до 25–35% на записах з PSTN-артефактами та вузькосмуговим кодеком G.711.

Діаризація ламається при більш ніж двох спікерах. pyannote/speaker-diarization-3.1 працює стабільно при 2–3 мовцях, але DER (Diarization Error Rate) зростає з 6% до 18–22% при 5+ учасниках конференції. Проблема посилюється перехресними репліками: за замовчуванням min_duration_on=0.1 обрізає короткі вставки. Рішення — збільшити min_duration_on до 0.3 та додати overlap detection через pyannote-overlap-detection.

Клонування голосу — латентність чи якість. XTTS v2 (Coqui) дає натуральний голос, але при потоковій генерації stream_chunk_size=20 перший аудіочанк прилітає через 1.4–2.0 с — неприйнятно для інтерактивних сценаріїв. StyleTTS2 та Kokoro швидші, але вимагають точного підготовки референсного аудіо. Ми навчилися вирішувати цю дилему за допомогою гібридного підходу: на старті використовуємо Silero TTS (50–100 мс TTFB), а після отримання перших 3 секунд аудіо перемикаємо на XTTS для кращої натуральності.

Як вибрати ASR-модель під ваші дані?

Модель	WER (українська, чистий запис)	WER (PSTN, кодек G.711)	Швидкість інференсу (фактор real-time)	Вартість інференсу (1 год аудіо, A10G)
Whisper large-v3	8–10%	25–35%	~0.1x (55 с на 40 хв)	~$0.50
Whisper medium	12–15%	30–40%	~0.3x	~$0.15
Wav2Vec2 XLSR-53	15–18%	28–35%	~0.8x	~$0.08
Whisper large-v3 + fine-tune	4–7%	10–15%	~0.1x	~$0.50

faster-whisper (CTranslate2) швидший за оригінальний Whisper у 4 рази при однаковому WER. Для продакшену ми завжди використовуємо його.

Практичний приклад: fine-tuning Whisper на доменній лексиці

Фінтех-компанія з 12 000 дзвінків/день. Початковий WER на українській з банківською лексикою — 22% (Google STT). Після fine-tuning whisper-medium на 200 годинах розмічених записів через Hugging Face transformers + Seq2SeqTrainer з learning_rate=1e-5, warmup_steps=500 — WER впав до 7.3%. Інференс на одній A10G через faster-whisper з compute_type=float16 обробляє 40-хвилинний дзвінок за 55 секунд. Підсумкова вартість інференсу — $0.50 за годину аудіо, що в 6 разів дешевше за хмарне рішення. Проєкт виконано за 6 тижнів, включаючи підготовку даних і валідацію.

Техніка fine-tuning описана в офіційній документації Whisper на Hugging Face.

Як донавчити Whisper на доменних даних?

Коли загальна модель не справляється, fine-tuning — перший інструмент. Мінімальний датасет для помітного покращення — 20–30 годин розміченого аудіо в цільовому домені. Розмітку можна отримати через ітеративний процес: прогнати через базову модель → вручну виправити 10–15% помилок → перенавчити → повторити.

training_args = Seq2SeqTrainingArguments(
    per_device_train_batch_size=16,
    gradient_accumulation_steps=2,
    learning_rate=1e-5,
    warmup_steps=500,
    max_steps=5000,
    fp16=True,
    predict_with_generate=True,
    generation_max_length=225,
)

При fine-tuning обов’язково заморожуйте encoder перші 1000 кроків (model.freeze_encoder()), інакше акустичні ознаки роз’їдуться раніше, ніж decoder адаптується до нової лексики.

Синтез мовлення: що обрати для вашого сценарію?

Модель	Латентність (TTFB)	Натуральність MOS	Клонування	Мови
XTTS v2	1.2–2.0 с	4.1–4.3	Так, 3 с референсу	17
StyleTTS2	0.3–0.6 с	4.0–4.2	Так, вимагає адаптації	en, + fine-tune
Kokoro-82M	0.08–0.15 с	3.7–3.9	Ні	en, ja
Silero TTS	0.05–0.1 с	3.4–3.6	Ні	ru, en, de, та ін.
Edge-TTS	~0.4 с (cloud)	4.0	Ні	100+

Для інтерактивних ботів з вимогою TTFB < 300 мс — Silero або Kokoro. Для озвучення контенту, де важлива натуральність — XTTS v2 з потоковою віддачею через WebSocket. Ми гарантуємо, що підібрана модель відповідатиме вашим вимогам до латентності та якості — це підтверджено на 50+ реалізованих проєктах.

Наш досвід та гарантії

10+ років досвіду в NLP та speech processing. 50+ успішних проєктів для fintech, telecom, медицини. Сертифіковані моделі (Model Card + bias audit). Ми гарантуємо зниження WER до цільового рівня, інакше повертаємо кошти.

Що входить у роботу з нами?

Клієнт отримує:

Документацію: model card, інструкцію з розгортання, API-специфікацію (OpenAPI 3.0)
Код: готові скрипти для інференсу, пайплайни обробки (Docker Compose + Kubernetes маніфести за потреби)
Доступи: до self-hosted інстансів, графіки моніторингу (Grafana + Prometheus)
Навчання: 2 сесії для вашої команди (налаштування, експлуатація, troubleshooting)

Ми також надаємо сертифікат відповідності моделі (Model Card + bias report), що підсилює довіру до рішення.

Процес роботи та терміни

Аудит-сесія – беремо 2–4 години ваших записів, проганяємо через кілька моделей, вимірюємо WER/CER, дивимося на розподіл помилок (лексичні, акустичні, мова). Займає 1–2 дні.
Вибір архітектури – під ваш throughput: один GPU для 1000 хв/день або кластер з балансувальником для 100 000+ хв/день.
Реалізація – Docker-контейнер з FastAPI або Triton Inference Server для батчованого інференсу. Інтеграція з чергою Kafka.
Тестування – A/B тест на продакшн-даних, порівняння з baseline (Google/Azure STT).
Деплой – CI/CD (GitHub Actions + ArgoCD), моніторинг (Grafana + WER/CER алерти).

Терміни:

Базова інтеграція готової моделі – 1–2 тижні.
Fine-tuning з підготовкою даних та валідацією – 4–8 тижнів.
Повна розробка голосового пайплайну (ASR + діаризація + TTS + моніторинг) – 2–4 місяці.

Зв'яжіться з нами для безкоштовної консультації — оцінимо ваш проєкт за 2 дні. Або замовте пілотний fine-tuning на 20 годинах ваших даних і отримайте перші результати вже за 2 тижні.