Что такое векторный поиск и чем он отличается от обычного полнотекстового?

Векторный поиск находит семантически похожие тексты, а не просто совпадения по ключевым словам. Например, запрос «как сбросить пароль» найдёт статью «восстановление доступа», даже если слово «сбросить» в ней не встречается. Это достигается за счёт преобразования текста в векторное представление (эмбеддинг) и поиска ближайших векторов в многомерном пространстве.

Какую векторную базу данных выбрать для мобильного приложения?

Для большинства проектов до 1 млн документов оптимален pgvector — расширение PostgreSQL, не требующее дополнительной инфраструктуры. Он поддерживает HNSW и IVFFlat индексы, обеспечивая поиск за 50–300 мс. При больших объёмах стоит рассмотреть специализированные решения вроде Pinecone или Qdrant.

Можно ли использовать векторный поиск в офлайн-режиме?

Да, для офлайн-сценариев эмбеддинги можно генерировать локально. На iOS используем Core ML с конвертированной моделью (например, all-MiniLM-L6-v2), на Android — ONNX Runtime. Модель весит около 22 МБ и выдаёт 384-мерные векторы, достаточного качества для поиска по корпоративной документации.

Как фильтровать результаты векторного поиска по метаданным?

Добавьте условия WHERE в SQL-запрос: например, WHERE language = 'ru' AND category = 'installation'. Однако pgvector выполняет фильтрацию после векторного поиска, что может снизить точность при высокоселективных фильтрах. Для таких случаев строят отдельные индексы для каждого подмножества или используют partitioned HNSW.

Как отображать результаты поиска на мобильном экране?

Каждый результат содержит отрывок текста, название раздела, визуальный индикатор релевантности (например, три точки), хлебные крошки источника и подсветку совпадающих слов. Числовой score показывать не стоит — он не интуитивен для пользователя. Добавьте кнопку «Открыть полный документ».

Что такое векторный поиск и чем он отличается от обычного полнотекстового?

Векторный поиск находит семантически похожие тексты, а не просто совпадения по ключевым словам. Например, запрос «как сбросить пароль» найдёт статью «восстановление доступа», даже если слово «сбросить» в ней не встречается. Это достигается за счёт преобразования текста в векторное представление (эмбеддинг) и поиска ближайших векторов в многомерном пространстве.

Какую векторную базу данных выбрать для мобильного приложения?

Для большинства проектов до 1 млн документов оптимален pgvector — расширение PostgreSQL, не требующее дополнительной инфраструктуры. Он поддерживает HNSW и IVFFlat индексы, обеспечивая поиск за 50–300 мс. При больших объёмах стоит рассмотреть специализированные решения вроде Pinecone или Qdrant.

Можно ли использовать векторный поиск в офлайн-режиме?

Да, для офлайн-сценариев эмбеддинги можно генерировать локально. На iOS используем Core ML с конвертированной моделью (например, all-MiniLM-L6-v2), на Android — ONNX Runtime. Модель весит около 22 МБ и выдаёт 384-мерные векторы, достаточного качества для поиска по корпоративной документации.

Как фильтровать результаты векторного поиска по метаданным?

Добавьте условия WHERE в SQL-запрос: например, WHERE language = 'ru' AND category = 'installation'. Однако pgvector выполняет фильтрацию после векторного поиска, что может снизить точность при высокоселективных фильтрах. Для таких случаев строят отдельные индексы для каждого подмножества или используют partitioned HNSW.

Как отображать результаты поиска на мобильном экране?

Каждый результат содержит отрывок текста, название раздела, визуальный индикатор релевантности (например, три точки), хлебные крошки источника и подсветку совпадающих слов. Числовой score показывать не стоит — он не интуитивен для пользователя. Добавьте кнопку «Открыть полный документ».

Векторный поиск в мобильной AI-базе знаний: pgvector, эмбеддинги, HNSW

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

Векторный поиск в мобильной AI-базе знаний: pgvector, эмбеддинги, HNSW

Сложный

~5 дней

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
746
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
969
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

В мобильной разработке нередко возникает ситуация: пользователь вводит запрос "как восстановить доступ", а система возвращает пустой экран. Обычный поиск по подстроке не справляется с синонимами, опечатками и разными формулировками. Векторный поиск решает эту проблему: он находит семантически похожие документы, а не точные совпадения. "восстановить доступ" → "сброс пароля" → нужная статья находится за миллисекунды. За 5+ лет мы внедрили такой поиск в 20+ проектах для iOS и Android, и теперь делимся практическим опытом.

Согласно документации pgvector, семантический поиск может быть реализован с помощью индексов HNSW и IVFFlat, обеспечивающих высокую скорость даже на миллионах векторов.

Как работает векторный поиск на уровне кода

Каждый текстовый фрагмент превращается в вектор — массив чисел размерностью 384, 768 или 1536 (зависит от модели). Семантически близкие тексты имеют близкие векторы. Поиск — это нахождение ближайших векторов к запросу (Approximate Nearest Neighbor, ANN).

На практике pipeline выглядит так:

Пользователь вводит запрос в мобильном приложении.
Клиент отправляет запрос на бэкенд.
Бэкенд генерирует эмбеддинг через API (OpenAI, Cohere) или локальную модель.
Векторная БД возвращает топ-K ближайших чанков.
Результаты передаются в LLM для суммаризации или возвращаются напрямую.

Весь pipeline до шага 4 занимает 50–300 мс — вполне приемлемо для mobile UX. Для сравнения: pgvector в среднем выдаёт результат за 100 мс, что в 3 раза быстрее, чем Pinecone с тем же HNSW-индексом на наборе из 500 000 документов.

Почему pgvector лучше для мобильных проектов?

pgvector — расширение PostgreSQL, которое добавляет поддержку векторных индексов. Если у вас уже PostgreSQL, это нулевая дополнительная инфраструктура. Мы используем его в 80% проектов, где объём документов не превышает 1 млн. Таблица ниже показывает сравнение популярных решений:

Параметр	pgvector	Pinecone	Qdrant
Задержка (p50)	50–150 мс	20–50 мс	30–80 мс
Максимальный объём	10M+ (сложнее)	100M+	100M+
Стоимость на 1M векторов	$0 (входит в Postgres)	~$70/мес	$25/мес (self-host)
Фильтрация по метаданным	✅ (после ANN)	✅ (настраиваемая)	✅ (настраиваемая)
Офлайн-режим	✅	❌	❌

pgvector поддерживает HNSW и IVFFlat индексы. HNSW даёт лучшую точность и скорость поиска, но требует больше памяти при построении. Для базы знаний до 500 000 документов HNSW хорош из коробки.

-- Создание HNSW-индекса для cosine distance
CREATE INDEX ON documents USING hnsw (embedding vector_cosine_ops)
WITH (m = 16, ef_construction = 64);

-- Поиск топ-5 ближайших
SELECT id, content, 1 - (embedding <=> $1) AS similarity
FROM documents
ORDER BY embedding <=> $1
LIMIT 5;

<=> — cosine distance. Для нормализованных векторов можно использовать inner product (<#>), но <=> работает без нормализации.

Как генерировать эмбеддинги на мобильном устройстве?

Есть два подхода: серверный и клиентский. Серверный предпочтительнее для большинства приложений — модели эмбеддингов весят 80–500 МБ, локальный вывод расходует батарею, а API-ключи не торчат из APK. Исключение — полностью офлайн-сценарий, например, корпоративное приложение для работы без интернета. На iOS используем Core ML (конвертация через coremltools), на Android — ONNX Runtime. Пример: all-MiniLM-L6-v2 в ONNX весит ~22 МБ и выдаёт 384-мерные векторы, достаточные для поиска по документации.

Ниже приведено сравнение популярных моделей эмбеддингов для мобильного использования:

Модель	Размерность	Размер на диске	Качество (MTEB)
all-MiniLM-L6-v2	384	22 МБ	56.3
BGE-small-en	384	33 МБ	58.9
intfloat/e5-base-v2	768	113 МБ	61.3

Как настроить параметры индекса HNSW?

Параметр `ef_search` регулирует количество просматриваемых узлов во время поиска: чем выше, тем точнее, но медленнее. `ef_construction` влияет на качество построения индекса. Рекомендуемые значения: ef_search = 40–100 для баланса, ef_construction = 200–400 для больших наборов.

Фильтрация по метаданным — подводные камни

Векторный поиск без фильтров ищет по всему индексу. Если нужно ограничить область поиска (например, только документы по продукту X на русском языке), добавляйте фильтры:

SELECT id, content, 1 - (embedding <=> $1) AS similarity
FROM documents
WHERE
    language = 'ru'
    AND category = 'installation'
    AND updated_at > NOW() - INTERVAL '1 year'
ORDER BY embedding <=> $1
LIMIT 10;

Важно: pgvector выполняет фильтр после векторного поиска при использовании HNSW/IVFFlat. Для высокоселективных фильтров (отбирают < 10% строк) это приводит к пустым результатам — нужно строить отдельные индексы для каждого подмножества или использовать partitioned HNSW, который мы настраиваем при необходимости.

Что входит в реализацию

Аудит существующей базы знаний: структура, объём, типы контента.
Выбор модели эмбеддингов и размерности (384/768/1536) под ваш сценарий.
Настройка pgvector: создание индексов, оптимизация ef_search и ef_construction.
Разработка ingestion pipeline — автоматическое чанкование и векторизация документов.
API для поиска с поддержкой фильтрации, пагинации и сортировки.
Интеграция мобильного UI (поисковая строка, результаты, хлебные крошки).
Тестирование качества: precision@K, recall@K, A/B-тесты.
Оптимизация для офлайн-режима при необходимости.
Документация и передача исходного кода.

Сроки и как начать

Векторный поиск по корпусу до 50 тысяч документов с pgvector — 2–4 недели. С кастомной моделью эмбеддингов, reranking и мультиязычностью — 5–8 недель. Стоимость рассчитывается индивидуально после анализа вашей базы знаний.

Наши инженеры сертифицированы по iOS и Android, гарантируем качество результатов. Получите экспресс-оценку проекта за 2 дня — свяжитесь с нами для консультации. Закажите детальный аудит текущей базы знаний, чтобы выявить узкие места.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).