Які браузери підтримують Web Speech API?

SpeechRecognition (розпізнавання) працює в Chrome, Edge, Android Chrome з префіксом webkit. Firefox і Safari не підтримують, потрібен серверний fallback. SpeechSynthesis (синтез) підтримується всіма сучасними браузерами, включаючи Safari iOS.

Чи можна використовувати Web Speech API для голосових команд?

Так, через API SpeechRecognition можна слухати безперервний потік і порівнювати розпізнаний текст з ключовими фразами. Ми використовуємо такий підхід у презентаціях, навігації та системах розумного дому.

Який ASR кращий: браузерний чи серверний?

Браузерний SpeechRecognition безкоштовний і простий, але працює тільки в Chrome/Edge. Серверний Whisper дає якість на рівні людського сприйняття, підтримує 99+ мов і працює в будь-якому браузері. Для продакшену ми комбінуємо обидва: браузерний як швидкий, Whisper як fallback.

Скільки часу займає впровадження голосового введення?

Базова диктовка або голосовий пошук — 1-2 дні. Якщо потрібні голосові команди та TTS — 2-3 дні. Додавання Whisper fallback — ще 1 день. Строки залежать від складності інтерфейсу та кількості сценаріїв.

Що входить у вашу роботу з інтеграції Speech API?

Ми проводимо аудит браузерів ваших користувачів, обираємо оптимальну стратегію (браузерний ASR + Whisper), реалізуємо код на React/TypeScript з урахуванням багів (наприклад, обрив довгого тексту в Chrome), додаємо fallback для непідтримуваних браузерів, тестуємо на реальних пристроях і надаємо документацію.

Які браузери підтримують Web Speech API?

SpeechRecognition (розпізнавання) працює в Chrome, Edge, Android Chrome з префіксом webkit. Firefox і Safari не підтримують, потрібен серверний fallback. SpeechSynthesis (синтез) підтримується всіма сучасними браузерами, включаючи Safari iOS.

Чи можна використовувати Web Speech API для голосових команд?

Так, через API SpeechRecognition можна слухати безперервний потік і порівнювати розпізнаний текст з ключовими фразами. Ми використовуємо такий підхід у презентаціях, навігації та системах розумного дому.

Який ASR кращий: браузерний чи серверний?

Браузерний SpeechRecognition безкоштовний і простий, але працює тільки в Chrome/Edge. Серверний Whisper дає якість на рівні людського сприйняття, підтримує 99+ мов і працює в будь-якому браузері. Для продакшену ми комбінуємо обидва: браузерний як швидкий, Whisper як fallback.

Скільки часу займає впровадження голосового введення?

Базова диктовка або голосовий пошук — 1-2 дні. Якщо потрібні голосові команди та TTS — 2-3 дні. Додавання Whisper fallback — ще 1 день. Строки залежать від складності інтерфейсу та кількості сценаріїв.

Що входить у вашу роботу з інтеграції Speech API?

Ми проводимо аудит браузерів ваших користувачів, обираємо оптимальну стратегію (браузерний ASR + Whisper), реалізуємо код на React/TypeScript з урахуванням багів (наприклад, обрив довгого тексту в Chrome), додаємо fallback для непідтримуваних браузерів, тестуємо на реальних пристроях і надаємо документацію.

Голосове керування сайтом: Speech API, диктовка, TTS

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми

Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори

Сайти або веб-програми електронної комерції

Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів

Веб-програми для управління бізнес-процесами

CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації

Сайти або веб-програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 2062 послуг

Голосове керування сайтом: Speech API, диктовка, TTS

Середній

~2-3 дні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка сайту компанії B2B ADVANCE
1364
Розробка веб-додатків для компанії FEEDME
1253
Розробка веб-сайту для компанії БЕЛФІНГРУП
959
Розробка інтернет магазину для компанії FURNORO
1190
Розробка веб-додатків для компанії Enviok
932
Розробка веб-сайту для компанії ФІКСПЕР
949

Показати більше робіт

Firefox і Safari блокують нативний SpeechRecognition — до 30% користувачів втрачають можливість голосового керування. Середній час відгуку — 1.2 секунди. Ми вирішуємо це гібридом: браузерний API як primary для Chrome і Edge, Whisper від OpenAI як fallback для інших браузерів. Такий підхід знижує час відгуку до 1–4 секунд і покриває 100% браузерів. За 30+ проєктів накопичили кейси: диктовка в CRM, керування презентаціями, голосовий пошук в інтернет-магазині. За статистикою, понад 60% користувачів мобільних пристроїв надають перевагу голосовому введенню тексту. Точність Whisper досягає 95% навіть на шумних записах.

Що таке Web Speech API?

Web Speech API — стандарт W3C, який включає розпізнавання (ASR) та синтез мовлення (TTS). Він дозволяє додавати голосову взаємодію без зовнішніх бібліотек. Однак через обмеження у Firefox і Safari потрібен серверний fallback. Браузерний SpeechRecognition доступний тільки в Chrome/Edge, а SpeechSynthesis — скрізь, але з застереженнями (обрив довгих текстів).

Чому варто комбінувати браузерний ASR і Whisper для голосового керування?

Браузерний ASR дає миттєвий відгук і нульову вартість на кожен запит. Whisper — гарантує роботу в будь-якому браузері та високу якість на шумних аудіо. Комбінація дозволяє заощадити до 30% часу розробки: не потрібно писати складний серверний пайплайн — достатньо простого проксі. Вартість кожного запиту до Whisper — близько $0.006 за хвилину аудіо, тоді як браузерний ASR безкоштовний. При цьому користувачі отримують безшовний досвід.

Критерій	Браузерний SpeechRecognition	Whisper API (серверний)
Підтримка браузерів	Chrome, Edge, Android Chrome	Всі (через HTTP)
Якість розпізнавання	Середнє (WER ~12% на шумі)	Високе (WER ~5%)
Затримка (відгук)	Миттєво (онлайн)	1-3 секунди
Вартість	Безкоштовно	Мінімальна (~$0.006/хв)
Офлайн-режим	Ні	Ні (потрібен Інтернет)
Мови	Обмежений набір	99+ мов

Нативний ASR відповідає в 2 рази швидше Whisper, але Whisper точніший в 1.5 рази на шумних записах — комбінація дає оптимальний баланс.

Як працює розпізнавання мовлення?

Для старту запитуємо дозвіл на мікрофон через getUserMedia. Нативний API повертає проміжні (interim) та фінальні результати. Ми обробляємо їх у реальному часі: показуємо interim текст сірим, фінальний — чорним. Це зручно користувачеві — він бачить, що розпізнавання триває. Ключове налаштування — режим continuous: для диктовки довгих текстів вмикаємо безперервний запис, для голосових команд — запис однієї фрази (економить трафік).

Кейс: голосовий пошук з Whisper fallback — голосове керування сайтом

На замовлення інтернет-магазину ми реалізували голосовий пошук: користувач натискає кнопку, говорить назву товару, результат відображається миттєво. Для Chrome використовували нативний SpeechRecognition, для Firefox/Safari — записували аудіо через MediaRecorder і відправляли на /api/transcribe, який проксіює запит у Whisper API. Час відповіді: 1-2 секунди для нативного, 2-4 для Whisper. Після впровадження конверсія пошуку зросла на 15%, а навантаження на підтримку знизилося на 20% (користувачі рідше вводили текст вручну). Обробка помилок: ми виводимо зрозумілі повідомлення — «Доступ до мікрофона заборонено», «Мовлення не виявлено», «Помилка мережі». Користувач завжди знає, що пішло не так.

Синтез мовлення (Text-to-Speech)

TTS (SpeechSynthesis) підтримується скрізь, але є нюанси: в Chrome довгі тексти (~500 символів) обриваються через 15 секунд. Ми вирішили це паузою/відновленням на кожній межі речення — синтезатор не глохне. Також підбираємо голоси: для української мови доступно 3-4 голоси в кожній ОС, можна вказати конкретний. Докладніше в MDN Web Speech API.

Браузер	Обмеження	Рішення
Chrome	Обрив через 15 секунд (текст ~500 символів)	Пауза/відновлення на межі речень
Safari iOS	Немає вибору голосу для української	Використовувати стандартний голос, обмежити довжину
Firefox	Працює стабільно, але голосів мало	Універсальний підхід через стандартний голос

Приклад коду ініціалізації SpeechRecognition

const recognition = new (window.SpeechRecognition || window.webkitSpeechRecognition)();
recognition.lang = 'ru-RU';
recognition.continuous = true;
recognition.interimResults = true;
recognition.onresult = (event) => {
  for (let i = event.resultIndex; i < event.results.length; i++) {
    const transcript = event.results[i][0].transcript;
    if (event.results[i].isFinal) {
      console.log('Final:', transcript);
    } else {
      console.log('Interim:', transcript);
    }
  }
};
recognition.start();

Процес впровадження голосових функцій

Аналітика — визначаємо, які сценарії потрібні (голосовий пошук, диктовка, команди), оцінюємо браузерне оточення користувачів (наприклад, 60% Chrome, 20% Safari, 20% Firefox).
Проектування — обираємо архітектуру: нативний ASR + Whisper fallback, налаштування TTS. Малюємо UX-схему (кнопка, стан очікування, результат).
Реалізація — пишемо React-хуки useSpeechRecognition, useVoiceCommands, клас TextToSpeech. Код покриваємо unit-тестами (jest).
Тестування — перевіряємо на Chrome, Firefox, Safari, iOS, Android. Виправляємо баги (наприклад, відмінність у webkitSpeechRecognition).
Деплой — завантажуємо на staging, проводимо навантажувальне тестування TTS (одночасні користувачі), після затвердження — в продакшен.

Строки та що входить в роботу

Орієнтовні строки: голосовий пошук або диктовка — від 2 днів; голосові команди + TTS — від 3 днів; інтеграція з Whisper fallback — +1 день. Вартість розраховується індивідуально. Вартість serverless-функції для Whisper — від $0.20 на місяць при низькому навантаженні.

Відзначимо: Що входить в результат:

Робочий код на React/TypeScript з хуками та компонентами.
Документація в README (опис API, приклади, інструкція з деплою).
Налаштування serverless-функції для Whisper (якщо потрібен fallback).
Навчання команди (1 година відео-демо).
Гарантія на код — 30 днів після здачі (виправлення багів).

Чек-лист типових помилок

Виділимо 5 типових помилок при впровадженні голосових функцій:

Не перевіряється підтримка браузера — користувач бачить порожній інтерфейс.
Не обробляється помилка not-allowed — при відмові від мікрофона немає fallback.
Для довгої диктовки не включено continuous: true — запис обривається.
TTS в Chrome обривається на довгих текстах — без workaround (пауза/відновлення).
Політика автовідтворення блокує TTS при завантаженні сторінки — потрібен жест користувача.

Оцініть можливості голосового керування для вашого проєкту — зв'яжіться з нами для консультації. Замовте аудит вашого сайту на сумісність з голосовими інтерфейсами. Додаткову інформацію про Web Speech API можна знайти в офіційній документації MDN.

Фронтенд-розробка React: від аудиту до production

Бандл виріс до 3.1 MB gzip — це реальна цифра з проєкту, який прийшов до нас на аудит. Причина: moment.js (72 KB) тягнув локалі для всіх 160 мов, lodash імпортувався цілком замість tree-shake, три компонентні бібліотеки підключено одночасно. TTFB відмінний, але TTI (Time to Interactive) на мобільному — 14 секунд. Користувачі йшли, конверсія впала на 40%. Ми переписали фронтенд: прибрали дублювання бібліотек, впровадили динамічні імпорти та SSR. Результат — бандл зменшився до 850 KB gzip, TTI — 2.1 секунди, LCP — 1.8 с.

Frontend — це не «намалювати красиво». Це продуктивність, типізація, стратегія рендерингу, bundle management і підтримуваність на роки.

Чому Next.js — стандартний вибір для SEO?

React — наш основний UI-фреймворк для складних інтерфейсів. Next.js — стандартний вибір для проєктів з SEO-вимогами або SSR. App Router (з версії 13) приніс React Server Components, streaming та fetch із built-in кешуванням. Це реальні переваги: сторінка каталогу з тисячами товарів рендериться на сервері без відправки логіки фільтрації на клієнт, JS-бандл менший на 30%.

Але App Router — інший спосіб мислення. "use client" потрібно ставити свідомо. Реальна помилка: розробник позначає весь layout як "use client" через один стан навігації — і втрачає всі переваги RSC. Правило: тримати Server Components якомога вище в дереві, "use client" — тільки для інтерактивних листових компонентів. ISR (Incremental Static Regeneration) — потужний інструмент для контентних сайтів. На каталозі з 50 000 сторінок з ISR та CDN — TTFB < 50 ms для будь-якої сторінки.

Як TypeScript запобігає багам у продакшені?

TypeScript обов'язковий на будь-якому проєкті, який планується підтримувати довше 3 місяців або в команді більше одного розробника. Аргумент «пишемо швидко без типів» працює лише перші 2 тижні. Після — баги, пов'язані з невизначеними значеннями, виникають щотижня.

Конкретна користь: рефакторинг API-відповіді — змінив тип в одному місці, TypeScript показує всі місця, де потрібно адаптувати код. Без типів — баг у продакшені через тиждень. strict: true в tsconfig.json — обов'язково. noImplicitAny, strictNullChecks, strictFunctionTypes. Біль від Type 'undefined' is not assignable у розробці коштує менше, ніж Cannot read properties of undefined у продакшені. tRPC — end-to-end типізація від бекенду до фронтенду без окремої схеми — змінюючи тип процедури, ви одразу бачите місця на фронтенді, що потребують правки.

Vue 3 + Nuxt 3 — альтернативний стек для SSR

Vue 3 з Composition API — інший стиль розробки, ближчий до React Hooks. <script setup> та composables роблять код більш перевикористовуваним. Nuxt 3 — фреймворк для Vue з SSR/SSG, аналогічний Next.js. useAsyncData та useFetch — вбудовані composables з дедуплікацією запитів та hydration. Auto-imports зручні, але можуть заплутувати при debug. Nuxt Content — модуль для Markdown/MDX-файлів, ідеальний для документації.

Hydration mismatch — специфічний біль SSR на Vue та React. Рішення: <ClientOnly> компонент для браузерного контенту, suppressHydrationWarning для dynamic timestamps.

Продуктивність: метрики та інструменти

Bundle analysis — стартова точка. @next/bundle-analyzer або rollup-plugin-visualizer — запускаємо перед кожним мажорним деплоєм. Мета: жодна сторінка не повинна вимагати > 200 KB JS gzip для first paint.

Динамічні імпорти для важких компонентів:

const RichEditor = dynamic(() => import('@/components/RichEditor'), {
  ssr: false,
  loading: () => <EditorSkeleton />,
});

Редактор (Tiptap, Quill, CodeMirror) — типові кандидати на dynamic import. Без цього вони потрапляють в основний бандл. React DevTools Profiler — для пошуку зайвих ре-рендерів. React.memo, useMemo, useCallback — точкові інструменти. Передчасна мемоізація всього підряд додає overhead без користі. Профілюйте спочатку, оптимізуйте потім.

Віртуалізація довгих списків: @tanstack/virtual або react-window рендерять лише видимі елементи. Таблиця з 50 000 рядків: з віртуалізацією — 60fps, без — браузер зависає при скролі.

State management: без овериніжирингу

Для більшості додатків достатньо:

React Query / TanStack Query — для серверного стану (дані з API, кешування, інвалідація)
Zustand — для глобального клієнтського стану (легковаговий, без boilerplate Redux)
React Hook Form — для форм

Redux Toolkit виправданий для дуже складного глобального стану з великою кількістю взаємодій. Для більшості задач — це overkill. Recoil, Jotai — атомарні підходи для незалежних шматків стану.

CSS та дизайн-система

Tailwind CSS останньої версії — наш стандартний вибір для нових проєктів. Utility-first, відмінна інтеграція з компонентними бібліотеками (Radix UI, Headless UI), PostCSS pipeline. CSS Modules — альтернатива, коли потрібна більш явна ізоляція стилів. Radix UI + Tailwind (Shadcn/ui паттерн) — headless компоненти з повним контролем над стилями. Немає dependency lock-in: компоненти копіюються в проєкт і повністю кастомізуються. Storybook — для документування компонентної бібліотеки. React DevTools Profiler — офіційний інструмент від команди React.

Тестування

Рівень	Інструмент	Що тестуємо
Unit	Vitest	Утиліти, хуки, чисті функції
Component	Testing Library	Рендер, взаємодії
E2E	Playwright	Критичні користувацькі флоу
Visual	Chromatic (Storybook)	Регресія UI

E2E тести через Playwright — для checkout, авторизації, критичних форм. Не для всього підряд: підтримка великої e2e-сюїти дорога, тому обираємо 3-5 ключових сценаріїв.

Орієнтири за термінами та складом робіт

Задача	Термін
SPA (дашборд, CRM-інтерфейс)	8–16 тижнів
Next.js сайт з SSR/ISR	6–14 тижнів
Frontend для існуючого API	4–10 тижнів
Компонентна бібліотека	6–12 тижнів

Вартість розраховується після декомпозиції на компоненти, екрани та інтеграції з API. Ми використовуємо N+1 оцінку: додаємо 20% на ризики.

Що входить в роботу: вихідний код в Git, документація по архітектурі та компонентах, доступ до CI/CD, навчання вашої команди (2-3 зустрічі), гарантія 3 місяці на виявлені баги. Додатково — покриття юніт-тестами ключових модулів.

У нас 5 років досвіду у фронтенд-розробці, понад 50 виконаних проєктів, команда з 10 інженерів, що володіють React, Vue, Angular. Працюємо з технологіями, описаними в документації React та TypeScript. Додаткові відомості можна знайти в Wikipedia: React та Wikipedia: TypeScript.

Чек-лист типових помилок при початку проєкту

Ігнорування tree-shaking: імпорт цілої бібліотеки замість вибіркових модулів.
Відсутність code-splitting: важкий код завантажується одразу, а не на вимогу.
Нехтування типобезпекою: відсутність strict в tsconfig — прямий шлях до багів.
Надмірна мемоізація: useMemo та useCallback там, де вони не потрібні.
Вибір невідповідного state-менеджера: Redux Toolkit на маленьких проєктах.

Який стек обрати для фронтенд-розробки React?

Ми порівнюємо інструменти за реальними метриками. Next.js швидший за Nuxt у збірці SSR на 20–30% при однаковому розмірі сторінки. TypeScript знижує кількість production-багів на 60–70% у порівнянні з JavaScript. Економія на підтримці такого проєкту — значна за рахунок скорочення часу на налагодження. Якщо вам потрібен легкий SPA з мінімальною вартістю — достатньо React + Vite. Для контентного сайту з SEO — Next.js з ISR дає TTFB нижче 50 мс навіть при 50 000 сторінок.

Отримайте консультацію по вашому проєкту: оцінимо поточний код і запропонуємо план оптимізації. Замовте аудит — знайдемо вузькі місця та покажемо, як скоротити бюджет без втрати якості.