Что такое matryoshka embeddings?

Это техника, позволяющая использовать первые N измерений вектора без переобучения модели. Например, text-embedding-3-large можно уменьшить с 3072 до 1536 dimensions, снизив потребление памяти БД в 2 раза с потерей качества всего 2-5%.

Какие open-source embedding модели лучшие для русского языка?

BGE-M3 и multilingual-e5-large показывают хорошие результаты. Но универсального победителя нет — обязательно тестируйте на своих данных. Мы используем RAGAS для объективной оценки.

Чем отличается Cohere embed-v3 от OpenAI embeddings?

Cohere требует указания input_type (search_document vs search_query) — это даёт прирост recall 8-15%. OpenAI embeddings проще в использовании, но Cohere часто выигрывает на retrieval задачах.

Сколько времени занимает настройка embedding модели?

Обычно 1-2 недели: 2-5 дней на индексацию и 3-5 дней на тестирование 2-3 моделей. Мы предоставляем промежуточные результаты и финальный отчёт.

Что такое matryoshka embeddings?

Это техника, позволяющая использовать первые N измерений вектора без переобучения модели. Например, text-embedding-3-large можно уменьшить с 3072 до 1536 dimensions, снизив потребление памяти БД в 2 раза с потерей качества всего 2-5%.

Какие open-source embedding модели лучшие для русского языка?

BGE-M3 и multilingual-e5-large показывают хорошие результаты. Но универсального победителя нет — обязательно тестируйте на своих данных. Мы используем RAGAS для объективной оценки.

Чем отличается Cohere embed-v3 от OpenAI embeddings?

Cohere требует указания input_type (search_document vs search_query) — это даёт прирост recall 8-15%. OpenAI embeddings проще в использовании, но Cohere часто выигрывает на retrieval задачах.

Сколько времени занимает настройка embedding модели?

Обычно 1-2 недели: 2-5 дней на индексацию и 3-5 дней на тестирование 2-3 моделей. Мы предоставляем промежуточные результаты и финальный отчёт.

Выбор и настройка Embedding-модели для RAG

Q: Как выбрать embedding-модель для RAG?

Выбор зависит от языка корпуса, требований к latency и конфиденциальности данных. Для русского языка рекомендуем тестировать BGE-M3, multilingual-e5-large и text-embedding-3-large. Мы проводим такое тестирование бесплатно.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Выбор и настройка Embedding-модели для RAG

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1354
Разработка веб-приложения для компании FEEDME
1248
Разработка веб-сайта для компании БЕЛФИНГРУПП
951
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
643
Разработка веб-приложения для компании Enviok
925

Показать больше работ

Выбор и настройка Embedding-модели для RAG

Мы часто сталкиваемся с ситуацией, когда RAG-система работает, но retrieval выдает нерелевантные документы. Чаще всего проблема в embedding-модели — она не подходит под язык вашего корпуса или контекст запросов. Смена модели может поднять recall на 10–15% без изменения архитектуры. Закажите аудит вашей системы — мы подберем оптимальную модель и настроим её под ваши данные. Наши инженеры имеют 10 лет опыта в NLP и реализовали более 50 RAG-проектов для Enterprise.

Ошибка в выборе модели может стоить до 40% точности ответов. Мы гарантируем, что после настройки под ваш домен recall вырастет минимум на 10%. Свяжитесь с нами для бесплатного аудита.

Как выбрать Embedding-модель для RAG?

Embedding-модель — один из наиболее критичных компонентов RAG-системы. Качество retrieval напрямую зависит от того, насколько хорошо модель представляет тексты в векторном пространстве. Смена embedding-модели может дать больший прирост recall, чем оптимизация чанкинга или параметров поиска.

Категории embedding-моделей

Проприетарные API-модели:

text-embedding-3-large (OpenAI, dim=3072): лучшее качество на большинстве бенчмарков MTEB
text-embedding-3-small (OpenAI, dim=1536): хорошее соотношение цена/качество
embed-v3 (Cohere): сильный на retrieval задачах, поддерживает input_type параметр

Открытые модели (self-hosted):

BAAI/bge-m3 (dim=1024): многоязычный, поддерживает dense+sparse+colbert
BAAI/bge-large-en-v1.5 (dim=1024): лучший для английского
intfloat/multilingual-e5-large (dim=1024): хорошо на русском
nomic-ai/nomic-embed-text-v1.5 (dim=768): матрёшечный (кратные размерности)

Сравнение моделей по MTEB

На задачах Retrieval (BEIR benchmark, усреднённый nDCG@10) актуальные данные с MTEB leaderboard:

Модель	NDCG@10 (BEIR avg)	Dim	Макс. токены	Тип	Latency p99
text-embedding-3-large	54.9	3072	8191	API	200ms
text-embedding-3-small	51.7	1536	8191	API	100ms
cohere embed-v3	55.0	1024	512	API	150ms
BAAI/bge-m3	54.0	1024	8192	Open	80ms (GPU)
intfloat/e5-mistral-7b	56.9	4096	32768	Open	400ms (GPU)
nomic-embed-text-v1.5	53.5	768	8192	Open	50ms (GPU)

Для русскоязычных задач картина иная — рекомендуем тестировать на собственном домене. Мы проводим триал на вашем корпусе и предоставляем отчёт с метриками.

Настройка Cohere Embed v3 с input_type

Cohere embed-v3 требует указания input_type — это важно для retrieval. Использование правильного input_type повышает recall на 8–15%:

import cohere

co = cohere.Client(api_key="...")

def embed_documents(texts: list[str]) -> list[list[float]]:
    """Для индексации документов"""
    response = co.embed(
        texts=texts,
        model="embed-multilingual-v3.0",
        input_type="search_document",  # Для документов при индексации
    )
    return response.embeddings

def embed_query(query: str) -> list[float]:
    """Для поискового запроса"""
    response = co.embed(
        texts=[query],
        model="embed-multilingual-v3.0",
        input_type="search_query",  # Асимметричная модель — разные типы
    )
    return response.embeddings[0]

Self-hosted BGE-M3

BGE-M3 — наиболее универсальная open-source модель: поддерживает dense, sparse (SPLADE) и ColBERT-стиль multi-vector retrieval из одной модели. Экономия на инфраструктуре — одна модель вместо трёх:

from FlagEmbedding import BGEM3FlagModel

model = BGEM3FlagModel(
    "BAAI/bge-m3",
    use_fp16=True,   # Экономия памяти
    device="cuda",
)

# Dense embeddings (для стандартного ANN поиска)
dense_embeddings = model.encode(
    texts,
    batch_size=32,
    max_length=8192,
    return_dense=True,
    return_sparse=False,
    return_colbert_vecs=False,
)["dense_vecs"]

# Sparse embeddings (для BM25-подобного поиска)
sparse_embeddings = model.encode(
    texts,
    return_dense=False,
    return_sparse=True,
)["lexical_weights"]  # dict {token: weight}

# Hybrid retrieval score
def compute_bge_m3_score(query_dense, doc_dense, query_sparse, doc_sparse,
                          alpha=0.5) -> float:
    dense_score = np.dot(query_dense, doc_dense)
    sparse_score = sum(
        query_sparse.get(token, 0) * doc_sparse.get(token, 0)
        for token in query_sparse
    )
    return alpha * dense_score + (1 - alpha) * sparse_score

Выбор размерности: Matryoshka Embeddings

Nomic Embed и ряд других моделей поддерживают матрёшечные embeddings — можно использовать первые N измерений без переобучения. Это снижает требования к RAM векторной БД в 2× при незначительной (2–5%) потере качества:

from openai import OpenAI

client = OpenAI()

# text-embedding-3-large с уменьшенной размерностью
response = client.embeddings.create(
    model="text-embedding-3-large",
    input=texts,
    dimensions=1536,  # Уменьшаем размерность
)

Что влияет на качество retrieval?

Кроме выбора модели, важны: препроцессинг текстов, длина чанков, стратегия слияния результатов sparse+dense. Мы учитываем все эти факторы при настройке RAG под ваш домен.

Практический выбор embedding-модели

Если данные конфиденциальны / on-premise: BGE-M3 или E5-mistral-7b (self-hosted).
Если нужен лучший русский язык: тестируем BGE-M3, multilingual-e5-large и text-embedding-3-large на своём домене. Универсального победителя нет.
Если минимальная latency: text-embedding-3-small (API) или nomic-embed-text-v1.5 (self-hosted).
Если нужен hybrid sparse+dense без двух моделей: BGE-M3 — единственная open-source модель с нативной поддержкой обоих режимов.

Оценка на своём домене

from ragas import evaluate
from ragas.metrics import context_recall, context_precision

for model_name in ["text-embedding-3-small", "text-embedding-3-large"]:
    retriever = build_retriever(model_name)
    scores = evaluate(test_dataset, metrics=[context_recall, context_precision],
                      retriever=retriever)
    print(f"{model_name}: recall={scores['context_recall']:.3f}, "
          f"precision={scores['context_precision']:.3f}")

Что входит в настройку RAG под ключ

Анализ вашего корпуса и сценариев использования
Выбор и тестирование 2–3 embedding-моделей
Настройка индексации (размер чанков, overlap, векторная БД)
Интеграция с вашим бэкендом (API, gRPC)
Документация и обучение вашей команды
Пост-релизная поддержка 2 недели

Сроки и стоимость

Настройка embedding-модели и индексация: 2–5 дней
Сравнительное тестирование 2–3 моделей: 3–5 дней
Итого: 1–2 недели
Стоимость рассчитывается индивидуально под проект. Оценим вашу задачу за один рабочий день бесплатно.

Напишите нам, и мы подберём оптимальную модель для вашего RAG. Гарантируем повышение recall минимум на 10% по вашим метрикам.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.