Сколько данных нужно для дообучения embedding-модели?

Минимально — 300–500 пар (запрос-документ). Оптимально — 2000–5000 пар для стабильного прироста. Мы помогаем сгенерировать синтетические данные через LLM.

Какие модели лучше всего дообучать под домен?

BAAI/bge-m3 и intfloat/multilingual-e5-large показывают лучшие результаты для русского языка. Они легко дообучаются через sentence-transformers.

Как долго длится fine-tuning?

Обычно 2–4 часа на A100 для датасета из 5000 пар. С учётом подготовки данных и оценки — от 1 до 3 недель.

Как измерить улучшение после дообучения?

Используем метрики NDCG@10, Recall@5, MRR@5. Сравниваем базовую и дообученную модель на ваших тестовых запросах.

Нужно ли менять инфраструктуру после дообучения?

Нет. Модель имеет ту же размерность и API — достаточно заменить файл весов. Векторная БД и пайплайн остаются без изменений.

Сколько данных нужно для дообучения embedding-модели?

Минимально — 300–500 пар (запрос-документ). Оптимально — 2000–5000 пар для стабильного прироста. Мы помогаем сгенерировать синтетические данные через LLM.

Какие модели лучше всего дообучать под домен?

BAAI/bge-m3 и intfloat/multilingual-e5-large показывают лучшие результаты для русского языка. Они легко дообучаются через sentence-transformers.

Как долго длится fine-tuning?

Обычно 2–4 часа на A100 для датасета из 5000 пар. С учётом подготовки данных и оценки — от 1 до 3 недель.

Как измерить улучшение после дообучения?

Используем метрики NDCG@10, Recall@5, MRR@5. Сравниваем базовую и дообученную модель на ваших тестовых запросах.

Нужно ли менять инфраструктуру после дообучения?

Нет. Модель имеет ту же размерность и API — достаточно заменить файл весов. Векторная БД и пайплайн остаются без изменений.

Дообучение Embedding-модели под домен заказчика

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Дообучение Embedding-модели под домен заказчика

Средний

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1354
Разработка веб-приложения для компании FEEDME
1248
Разработка веб-сайта для компании БЕЛФИНГРУПП
951
Разработка интернет магазина для компании FURNORO
1186
Разработка логотипа компании B2B Advance
643
Разработка веб-приложения для компании Enviok
925

Показать больше работ

Дообучение Embedding-модели под домен заказчика

Представьте: вы внедрили RAG-пайплайн с современной embedding-моделью — BAAI/bge-m3 или OpenAI text-embedding-3. На общих запросах всё работает, но как только доходит до профильных документов — медицинских протоколов, судебных решений или технических стандартов — точность поиска падает. Модель путает термины домена, context recall застревает на 0.6-0.7, а в top-K лезут семантически похожие, но тематически нерелевантные документы. Мы решаем эту проблему дообучением модели на ваших данных. Без замены инфраструктуры. Наш подход: генерация синтетических пар через LLM, fine-tuning с MultipleNegativesRankingLoss и тщательная оценка. Результат — прирост NDCG на 15-30%. За 5 лет мы выполнили более 30 проектов по кастомизации NLP-моделей.

«Domain-specific fine-tuning of embedding models can improve retrieval metrics by 15-30% without changing infrastructure» — из отчёта о проекте

Когда необходимо дообучение embedding-модели?

Симптомы, которые говорят о необходимости fine-tuning:

Общая модель путает специфические термины: MeSH terms в медицине, юридические конструкции в праве, технические аббревиатуры.
Context recall RAG-системы застрял ниже 0.75, даже после оптимизации чанкинга и поискового индекса.
Высокая доля ложных срабатываний — семантически похожие, но тематически нерелевантные документы попадают в top-K.

Если вы заметили эти признаки, fine-tuning даст прирост метрик на 15-30% без изменения архитектуры.

Почему fine-tuning выгоднее замены модели?

Замена на более крупную модель (например, с 768 до 1536 размерности) увеличивает latency и стоимость хранения векторов. Fine-tuning той же модели на доменных данных — дешевле и быстрее. Мы используем MultipleNegativesRankingLoss — он эффективнее triplet loss для задач retrieval. Экономия на инфраструктуре может достигать 30%, а затраты на API для генерации данных окупаются за счёт точности.

Как мы дообучаем: стек и конфигурация

Используем sentence-transformers, PyTorch, Hugging Face Transformers. Базовая модель — BAAI/bge-m3 или intfloat/multilingual-e5-large. Обучаем на A100 (80GB) с batch size 32, learning rate 2e-5, warmup 10%.

Генерация обучающих пар с LLM

Для создания датасета без ручной разметки применяем GPT-4o-mini. Пример генерации:

from openai import OpenAI
import json

client = OpenAI()

def generate_queries_for_document(doc_text: str, n: int = 5) -> list[str]:
    response = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[{
            "role": "user",
            "content": f"""Сгенерируй {n} поисковых запросов..."""
        }],
        response_format={"type": "json_object"},
    )
    return json.loads(response.choices[0].message.content)["queries"]

Типично: 1000 документов × 5 запросов = 5000 пар за ~2 часа и 5-15 долларов на API.

Пошаговый процесс fine-tuning

Анализ домена и сбор репрезентативных документов. Определяем ключевые темы и типы запросов.
Генерация синтетических пар запрос-документ. Используем LLM (GPT-4o-mini) для создания до 5000 пар.
Ручное ревью и коррекция (опционально). Привлекаем экспертов домена для повышения качества.
Fine-tuning. Запускаем обучение на A100 с MultipleNegativesRankingLoss.
Оценка. Сравниваем метрики на тестовой выборке до и после.
Деплой. Заменяем файл весов — инфраструктура не меняется.

Объёмы данных: минимальные и оптимальные

Тип набора	Количество пар (запрос-документ)	Ожидаемый прирост NDCG@10
Минимальный	300–500	5–10%
Оптимальный	2000–5000	15–30%

Из нашей практики: юридические документы

Мы работали с крупной юридической компанией. Их задача — поиск по судебным решениям и нормативным актам. Базовая модель BAAI/bge-m3 давала NDCG@10 = 0.68. Мы дообучили на 8000 пар (6500 синтетических через GPT-4o-mini, 1500 ручных от экспертов). Результаты:

Метрика	До FT	После FT
NDCG@10	0.68	0.84
Recall@5	0.61	0.79
MRR@5	0.65	0.82
Latency (inference)	без изменений	без изменений

+24% к NDCG без изменения инфраструктуры — только обновление весов модели. Клиент получил систему поиска, которая находит нужные документы вдвое точнее.

Что входит в работу

Анализ ваших данных и выявление проблем retrieval.
Подготовка обучающего датасета (синтетическая + ручная разметка при необходимости).
Fine-tuning модели на выбранном стеке.
Оценка на ваших тестовых запросах.
Деплой дообученной модели в вашу инфраструктуру (Docker, SageMaker, Triton).
Документация и обучение команды.

Закажите оценку вашего проекта — мы подберём оптимальную стратегию дообучения.

Сроки

Генерация датасета: 3-7 дней.
Fine-tuning: 2-4 часа (на A100) до суток при большом объёме.
Оценка и сравнение: 2-3 дня.
Итого от 1 до 3 недель в зависимости от сложности.

Как оценить качество после дообучения?

Используем InformationRetrievalEvaluator из sentence-transformers:

evaluator = InformationRetrievalEvaluator(
    queries=test_queries,
    corpus=test_corpus,
    relevant_docs=relevance_labels,
    precision_recall_at_k=[1,5,10],
    ndcg_at_k=[10],
)

Сравниваем базовую и дообученную модель. Результаты визуализируем и отдаём заказчику.

Чтобы избежать типичных ошибок, мы используем достаточный объём данных, отделяем тестовую выборку и нормализуем эмбеддинги на inference. Благодаря 5-летнему опыту в NLP и более чем 30 успешным проектам по дообучению мы гарантируем результат.

Свяжитесь с нами — мы оценим ваш проект и предложим оптимальное решение. Работаем под ключ: от анализа данных до деплоя. Получите консультацию — это бесплатно.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.