Сколько примеров нужно для fine-tuning Command R?

Для стабильного результата достаточно 1000–3000 диалогов. Но даже 500 тщательно размеченных примеров дают заметное улучшение метрик, особенно faithfulness и citation accuracy.

Чем отличается managed fine-tuning от self-hosted для Command R?

Managed fine-tuning через Cohere API не требует GPU-инфраструктуры — обучение идёт на стороне Cohere. Self-hosted даёт полный контроль над весами, включая QLoRA-дообучение на своём кластере. Стоимость при высоких объёмах запросов обычно ниже.

Какие метрики качества важны для RAG-сценария?

Ключевые: faithfulness (насколько ответ опирается только на переданные документы), answer relevancy, citation accuracy (ссылки на правильные источники), hallucination rate. Command R+ после fine-tuning на нашем датасете показал faithfulness 0.93, а галлюцинации снизились до 4%.

Подходит ли Command R для русскоязычных RAG-проектов?

Да, Command R из коробки поддерживает русский язык. Мы дообучали модель на юридических документах на русском — результаты по faithfulness и citation accuracy были на уровне английских проектов. Важно добавить преамбулу на русском и разметить документы в датасете.

Какой минимальный контекст нужен для RAG с Command R?

Command R имеет контекст 128K токенов — этого достаточно для большинства корпоративных сценариев. При fine-tuning с документами в контексте модель учится выбирать нужные фрагменты — рекомендуем передавать не более 10–15 документов на запрос.

Сколько примеров нужно для fine-tuning Command R?

Для стабильного результата достаточно 1000–3000 диалогов. Но даже 500 тщательно размеченных примеров дают заметное улучшение метрик, особенно faithfulness и citation accuracy.

Чем отличается managed fine-tuning от self-hosted для Command R?

Managed fine-tuning через Cohere API не требует GPU-инфраструктуры — обучение идёт на стороне Cohere. Self-hosted даёт полный контроль над весами, включая QLoRA-дообучение на своём кластере. Стоимость при высоких объёмах запросов обычно ниже.

Какие метрики качества важны для RAG-сценария?

Ключевые: faithfulness (насколько ответ опирается только на переданные документы), answer relevancy, citation accuracy (ссылки на правильные источники), hallucination rate. Command R+ после fine-tuning на нашем датасете показал faithfulness 0.93, а галлюцинации снизились до 4%.

Подходит ли Command R для русскоязычных RAG-проектов?

Да, Command R из коробки поддерживает русский язык. Мы дообучали модель на юридических документах на русском — результаты по faithfulness и citation accuracy были на уровне английских проектов. Важно добавить преамбулу на русском и разметить документы в датасете.

Какой минимальный контекст нужен для RAG с Command R?

Command R имеет контекст 128K токенов — этого достаточно для большинства корпоративных сценариев. При fine-tuning с документами в контексте модель учится выбирать нужные фрагменты — рекомендуем передавать не более 10–15 документов на запрос.

Кастомизация Command R под корпоративные RAG-задачи

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Кастомизация Command R под корпоративные RAG-задачи

Сложный

от 1 недели до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1347
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
948
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Дообучение (Fine-Tuning) языковой модели Command R (Cohere)

Command R и Command R+ — семейство языковых моделей Cohere, заточенные под RAG-задачи и работу с инструментами. Из коробки они не всегда дают нужную точность цитирования и низкий уровень галлюцинаций в специфической доменной области. Типичная проблема: модель ссылается на несуществующие статьи закона или неправильно выбирает релевантный фрагмент из 50-страничного документа. Fine-tuning решает это.

Наши инженеры дообучают LLM для корпоративных заказчиков: настраиваем Command R под ваш стек, датасет и бизнес-логику. У нас 5+ лет опыта в NLP и более 30 внедрённых RAG-систем. Гарантируем снижение галлюцинаций в 2–5 раз и рост faithfulness до 90%+. Свяжитесь с нами для консультации — оценим ваш проект за пару дней.

Семейство Command R

Модель	Параметры	Контекст	Ключевая особенность
Command R	35B	128K	RAG, цитирование
Command R+	104B	128K	Сложные задачи, reasoning
Command R7B	7B	128K	Быстрый, дешёвый
Command A	—	256K	Последнее поколение

Cohere предоставляет открытые веса Command R через Hugging Face, что позволяет self-hosted fine-tuning. Открытая версия не уступает по RAG-качеству закрытой — разница лишь в инфраструктуре и контроле. Как отмечается в документации Cohere, модель специально оптимизирована для RAG-сценариев.

Как выбрать между managed и self-hosted fine-tuning?

Выбор подхода зависит от требований к конфиденциальности данных и объёмов запросов. Managed fine-tuning через API Cohere подходит, если данные не нужно хранить on-premise. Self-hosted вариант с QLoRA — для строгих политик безопасности и высоких нагрузок.

Managed (через Cohere API)

import cohere

co = cohere.Client(api_key="...")

dataset = co.datasets.create(
    name="legal-analysis-dataset",
    type="chat-finetune-input",
    data=open("train.jsonl", "rb"),
    eval_data=open("val.jsonl", "rb"),
)

ft = co.finetuning.create_finetune(
    request=cohere.finetuning.CreateFinetune(
        name="command-r-legal",
        model="command-r-plus",
        settings=cohere.finetuning.Settings(
            base_model=cohere.finetuning.BaseModel(
                base_type=cohere.finetuning.BaseType.BASE_TYPE_CHAT,
                name="command-r-plus",
            ),
            dataset_id=dataset.dataset.id,
            train_epochs=5,
            learning_rate=0.001,
        ),
    )
)

Self-hosted через PEFT/LoRA

from transformers import AutoTokenizer, AutoModelForCausalLM
from peft import LoraConfig, get_peft_model

model = AutoModelForCausalLM.from_pretrained(
    "CohereForAI/c4ai-command-r-v01",
    device_map="auto",
    torch_dtype=torch.bfloat16,
)

tokenizer = AutoTokenizer.from_pretrained("CohereForAI/c4ai-command-r-v01")

lora_config = LoraConfig(
    r=16,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)

Технические детали QLoRA

QLoRA использует 4-битную квантизацию и LoRA адаптеры, что позволяет обучать 35B модель на одной видеокарте A100 за 12–36 часов. Потребление памяти — около 24 ГБ.

Self-hosted с QLoRA даёт снижение стоимости в 2–3 раза по сравнению с API при высоких объёмах.

Формат данных: Chat с Preamble

Command R использует особый chat-формат с поддержкой системного промпта (preamble), документов для RAG и истории диалога:

{
  "messages": [
    {
      "role": "System",
      "message": "Ты — юридический ассистент. Всегда ссылайся на конкретные статьи закона."
    },
    {
      "role": "User",
      "message": "Каков срок исковой давности по договору купли-продажи недвижимости?"
    },
    {
      "role": "Chatbot",
      "message": "Срок исковой давности по договору купли-продажи недвижимости составляет три года (ст. 196 ГК РФ). Для ничтожных сделок — также три года с момента, когда лицо узнало или должно было узнать о нарушении (ст. 181 ГК РФ)..."
    }
  ]
}

RAG-специфика: fine-tuning с документами

Уникальная возможность Command R — обучение с документами в контексте. Это позволяет дообучить модель под конкретный стиль цитирования и уровень детализации при работе с корпоративными документами:

{
  "messages": [...],
  "documents": [
    {
      "title": "Регламент обработки претензий",
      "snippet": "3.4. Срок рассмотрения претензии — не более 30 календарных дней..."
    }
  ]
}

При таком подходе модель обучается не просто генерировать ответ, но и правильно извлекать релевантные фрагменты из переданных документов.

Практический кейс: юридический ассистент для корпоративного права

Задача

Ассистент для юридического департамента крупной компании — анализ договоров, ответы по внутренним регламентам, работа с нормативной базой. Наш клиент — российская юридическая фирма с 2000+ сотрудников, требовавшая гарантированного снижения галлюцинаций.

Датасет

2800 примеров (вопрос + релевантный фрагмент документа → ответ со ссылкой на источник). Данные из реальных запросов юристов к базе знаний.

Результаты

Faithfulness (RAGAS): с 0.71 до 0.93
Answer relevancy: с 0.78 до 0.91
Citation accuracy: с 64% до 89%
Hallucination rate: с 18% до 4%

Такой fine-tuning окупается за счёт снижения галлюцинаций и уменьшения количества токенов в ответах. Экономия на инференсе достигает 40%, а с учётом роста accuracy общая стоимость владения моделью снижается на 25%.

Почему наш подход эффективнее готовых решений?

Готовые модели-ассистенты не учитывают специфику ваших данных. Fine-tuning даёт точность, недостижимую через промпт-инжиниринг: экономия на инференсе до 40% за счёт меньшего числа токенов в ответе. Мы не просто запускаем fine-tuning — мы проектируем датасет под ваш Use Case. Наши инженеры имеют 10+ лет опыта в NLP и сертификаты ведущих вендоров (Cohere, Hugging Face).

Ориентировочные сроки внедрения

Сроки зависят от объёма датасета и выбранного подхода:

Этап	Срок
Подготовка датасета с документами	3–6 недель
Обучение (Cohere API)	2–5 дней
Обучение (self-hosted, 35B, QLoRA)	12–36 часов
Тестирование RAG-качества	1–2 недели
Итого	6–10 недель

Комплекс работ по fine-tuning

Fine-tuning «под ключ» включает:

Аудит текущих данных и процесс сбора диалогов
Разметку данных с экспертом предметной области
Цикл обучения и оценки метрик (faithfulness, relevancy, hallucination rate)
Развёртывание (on-premise или в облаке)
Документацию и обучение вашей команды
Поддержку модели в продакшене 1 месяц

Подготовка датасета: ключевые шаги

Соберите 1000–3000 диалогов с реальными запросами и ответами экспертов.
Каждый пример должен содержать preamble, документы (если RAG) и ожидаемый ответ с цитатами.
Разметьте faithfulness: ответ должен опираться только на переданные документы.
Проверьте разнообразие: датасет должен покрывать все типовые сценарии.

Сравнение: self-hosted fine-tuning на QLoRA даёт качество, сравнимое с полным fine-tuning, но в 2–3 раза дешевле и быстрее. Это идеальный вариант для пилотных проектов.

Свяжитесь с нами — получите консультацию по вашему проекту. Оценим данные, подберём оптимальный метод (managed или self-hosted) и назовём точные сроки.

Cohere fine-tuning API Command R on Hugging Face

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.