Що таке ORPO і чим він відрізняється від DPO?

ORPO (Odds Ratio Preference Optimization) — метод дообучення мовних моделей, який об'єднує SFT та preference optimization в одному кроці. На відміну від DPO, ORPO не потребує окремої reference model, що економить пам'ять та спрощує пайплайн. Замість log-ймовірностей ORPO використовує odds ratio для penalization небажаних відповідей.

Скільки даних потрібно для ORPO-дообучення?

Для якісного alignment зазвичай достатньо 1–3 тисяч пар (chosen/rejected). Чим більше різноманіття, тим краще. На практиці 1800 пар у нашому кейсі дали зростання recall порушень з 0.67 до 0.91. Великі датасети (10k+) можуть покращити генералізацію, але потребують більше обчислювальних ресурсів.

Який learning rate використовувати для ORPO?

ORPO зазвичай потребує меншого learning rate порівняно з SFT. Рекомендуємо starting point: 5e-6 – 8e-6 для 7B моделей. Занадто високий lr призводить до переобучення на preference loss. У своїй практиці ми використовуємо поступове зменшення за допомогою linear scheduler з warmup 0.1.

Чи можна використовувати ORPO з PEFT (LoRA)?

Так, ORPO чудово поєднується з LoRA. У TRL це робиться стандартно: передаєте peft_config в ORPOTrainer. LoRA знижує споживання пам'яті до 2–3 разів, а якість alignment залишається порівнянною з full fine-tuning. Ми рекомендуємо target modules: q_proj, v_proj, k_proj, o_proj з rank 16.

Які бенчмарки найкраще показують перевагу ORPO?

На AlpacaEval 2.0 ORPO показує win rate ~18–22% vs GPT-4 Turbo, що вище ніж DPO (15–20%) при вдвічі меншому споживанні пам'яті. SimPO (новіший метод) дає ~20–25%, але потребує підбору додаткових гіперпараметрів. На реальних задачах, як-от code review (наш кейс), ORPO дозволив знизити false negative rate з 28% до 7%.

Що таке ORPO і чим він відрізняється від DPO?

ORPO (Odds Ratio Preference Optimization) — метод дообучення мовних моделей, який об'єднує SFT та preference optimization в одному кроці. На відміну від DPO, ORPO не потребує окремої reference model, що економить пам'ять та спрощує пайплайн. Замість log-ймовірностей ORPO використовує odds ratio для penalization небажаних відповідей.

Скільки даних потрібно для ORPO-дообучення?

Для якісного alignment зазвичай достатньо 1–3 тисяч пар (chosen/rejected). Чим більше різноманіття, тим краще. На практиці 1800 пар у нашому кейсі дали зростання recall порушень з 0.67 до 0.91. Великі датасети (10k+) можуть покращити генералізацію, але потребують більше обчислювальних ресурсів.

Який learning rate використовувати для ORPO?

ORPO зазвичай потребує меншого learning rate порівняно з SFT. Рекомендуємо starting point: 5e-6 – 8e-6 для 7B моделей. Занадто високий lr призводить до переобучення на preference loss. У своїй практиці ми використовуємо поступове зменшення за допомогою linear scheduler з warmup 0.1.

Чи можна використовувати ORPO з PEFT (LoRA)?

Так, ORPO чудово поєднується з LoRA. У TRL це робиться стандартно: передаєте peft_config в ORPOTrainer. LoRA знижує споживання пам'яті до 2–3 разів, а якість alignment залишається порівнянною з full fine-tuning. Ми рекомендуємо target modules: q_proj, v_proj, k_proj, o_proj з rank 16.

Які бенчмарки найкраще показують перевагу ORPO?

На AlpacaEval 2.0 ORPO показує win rate ~18–22% vs GPT-4 Turbo, що вище ніж DPO (15–20%) при вдвічі меншому споживанні пам'яті. SimPO (новіший метод) дає ~20–25%, але потребує підбору додаткових гіперпараметрів. На реальних задачах, як-от code review (наш кейс), ORPO дозволив знизити false negative rate з 28% до 7%.

ORPO: ефективне дообучення LLM без reference моделі

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

ORPO: ефективне дообучення LLM без reference моделі

Складний

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Практичне дообучення LLM методом ORPO

Розглянемо практичний сценарій: необхідно здійснити дообучення мовної моделі під конкретні вподобання — наприклад, щоб вона строго дотримувалася стилю коду в компанії. Класичний підхід DPO потребує двох моделей у пам'яті, а SFT не вміє штрафувати за погані відповіді. Ми часто стикаємося з цим на практиці, і рішення — ORPO (Odds Ratio Preference Optimization), метод, що об'єднує SFT та preference optimization в одному циклі без окремої reference model. У цій статті ми розглянемо практичне дообучення LLM методом ORPO, зокрема порівняння DPO та ORPO.

Економія пам'яті та часу з ORPO

ORPO — метод, запропонований в роботі Hong et al.. Ключова відмінність від DPO: ORPO об'єднує Instruction Tuning та Preference Optimization в одному кроці, не потребує окремої reference model і використовує odds ratio для penalization небажаних відповідей. Це означає, що ви можете вирівнювати модель на одній відеокарті, а не на двох. Завдяки цьому ORPO в 1.2 рази кращий за DPO на AlpacaEval 2.0. Методи вирівнювання мовних моделей, такі як ORPO, стають дедалі популярнішими.

Метод	Win Rate (AlpacaEval 2.0)	Пам'ять (7B)	Час навчання
SFT only	~5%	1×	1×
DPO	~15–20%	2× (ref model)	1.3×
ORPO	~18–22%	1×	1×
SimPO	~20–25%	1×	1×

ORPO перевершує DPO за ефективністю пам'яті: він використовує вдвічі менше пам'яті, ніж DPO (14 GB проти 28 GB для 7B моделі), і не потребує додаткової моделі. Крім того, ORPO демонструє на 10% вищий win rate порівняно з DPO (18–22% проти 15–20% на AlpacaEval 2.0). SimPO (Simple Preference Optimization) — свіжіший метод, часто показує трохи кращі результати, але потребує підбору двох гіперпараметрів.

Як математично працює ORPO?

Функція втрат:

L_ORPO = L_SFT + λ * L_OR

L_SFT = -log P(y_w | x)  # звичайний SFT loss на chosen відповідях

L_OR = -log(sigmoid(log(odds_ratio(y_w, x) / odds_ratio(y_l, x))))
де odds_ratio(y, x) = P(y|x) / (1 - P(y|x))

Гіперпараметр λ (у бібліотеці TRL називається beta) визначає вагу preference loss. Ми рекомендуємо починати з beta=0.1 і регулювати в бік збільшення, якщо модель недостатньо штрафує погані відповіді. Важливою особливістю ORPO є використання асимптотично незміщеної оцінки градієнта політики, що забезпечує стабільну збіжність до локального оптимуму в просторі параметрів. Для запобігання перенавчанню ми застосовуємо регуляризацію через weight decay (AdamW) та використовуємо моніторинг перплексії на валідаційному наборі.

Як зібрати якісний датасет вподобань?

Формат датасету ідентичний DPO — пари prompt, chosen, rejected:

dataset = {
    "prompt": "Як правильно написати технічне завдання?",
    "chosen": "Технічне завдання включає кілька обов'язкових розділів: мета проєкту, функціональні вимоги (з пріоритетами за MoSCoW), нефункціональні вимоги (продуктивність, безпека), обмеження, критерії приймання...",
    "rejected": "Пишіть що хочете, щоб розробники зрозуміли задачу"
}

Важно: rejected має бути не просто поганим, а типово небажаним — щоб модель вивчила межі. Збирайте пари за допомогою експертних оцінок або LLM-as-Judge.

Реалізація ORPO за допомогою TRL

Нижче наведено покрокове керівництво:

Крок 1: Завантажте базову модель. Використовуйте AutoModelForCausalLM.from_pretrained.
Крок 2: Налаштуйте ORPOConfig. Встановіть beta=0.1, learning_rate=8e-6, num_train_epochs=3.
Крок 3: Створіть ORPOTrainer з LoRA. Передайте peft_config з target_modules=["q_proj","v_proj","k_proj","o_proj"].
Крок 4: Запустіть навчання. Викличте trainer.train().

Код навчання ORPO

from trl import ORPOTrainer, ORPOConfig
from peft import LoraConfig
from transformers import AutoModelForCausalLM

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3.1-8B-Instruct",
    torch_dtype=torch.bfloat16,
    device_map="auto"
)

orpo_config = ORPOConfig(
    output_dir="./orpo-model",
    num_train_epochs=3,
    per_device_train_batch_size=2,
    gradient_accumulation_steps=8,
    learning_rate=8e-6,
    lr_scheduler_type="linear",
    warmup_ratio=0.1,
    beta=0.1,
    max_length=2048,
    max_prompt_length=512,
    bf16=True,
    remove_unused_columns=False,
    logging_steps=10,
)

trainer = ORPOTrainer(
    model=model,
    args=orpo_config,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
    peft_config=LoraConfig(
        r=16,
        lora_alpha=32,
        target_modules=["q_proj", "v_proj", "k_proj", "o_proj"],
        task_type="CAUSAL_LM",
    ),
)

trainer.train()

Що обрати: ORPO чи DPO?

Вибирайте ORPO при обмежених GPU-ресурсах, відсутності хорошої SFT reference model або задачах середньої складності alignment. DPO краще підходить, якщо вже є високоякісна SFT reference model і потрібне точне налаштування KL-дивергенції. SimPO варто використовувати, коли максимальний win rate на бенчмарках важливіший за простоту реалізації. У таблиці нижче — порівняння гіперпараметрів.

Гіперпараметр	ORPO	DPO	SimPO
λ (beta)	0.1-0.5	0.1-0.5	γ: 0.5-1.5, β: 0.1-0.5
Learning rate	5e-6 – 8e-6	1e-6 – 5e-6	1e-6 – 5e-6
Reference model	Не потрібна	Потрібна	Не потрібна
Чутливість до якості rejection	Середня	Висока	Висока

Практичний кейс: вирівнювання моделі code-review під стандарти фінтех-команди

З нашої практики. Наш клієнт — фінтех-компанія з жорсткими стандартами безпеки коду. Задача: донавчити Qwen2.5-Coder-7B-Instruct для автоматичного code review, що виявляє всі порушення. Проблема з чистим SFT: модель добре відтворює «правильні» рев'ю, але не штрафує за ігнорування порушень. Потрібна штрафна складова.

ORPO-датасет: 1800 пар. Chosen — рев'ю, що виявляє всі порушення стандартів. Rejected — рев'ю, що пропустило критичні порушення або згенерувало хибні зауваження.

Конфігурація: ORPO, β=0.1, lr=5e-6, 2 епохи, LoRA rank 16.

Результати:

Recall порушень стандартів: 0.67 → 0.91
Precision зауважень (без хибних): 0.71 → 0.88
False negative rate (пропуск критичних порушень): 28% → 7%
Час навчання: 3.5 год на 1×A100 40GB (без reference model overhead)
Економія коштів: використання ORPO замість DPO дозволило зекономити $2000 на GPU для цього проєкту. Для порівняння, навчання DPO потребувало б додаткових $3000 на оренду GPU. Таким чином, економія при використанні ORPO становить $1000 на проєкт.

Що входить у нашу роботу з ORPO-дообучення

Наша команда має понад 5 років досвіду в NLP та ШІ, виконала 20+ проєктів з дообучення мовних моделей. LoRA дообучення знижує вимоги до пам'яті, що дозволяє ефективно працювати на обмежених ресурсах. Ми гарантуємо якість вирівнювання моделі та маємо відповідні сертифікати.

Аналіз вашої задачі та збір вимог
Підготовка датасету вподобань (вибір або генерація пар chosen/rejected)
Вибір базової моделі та схеми PEFT (зазвичай LoRA)
Навчання ORPO з підбором гіперпараметрів λ/β
Оцінка за допомогою LLM-as-Judge та експерта
Документація пайплайну та рекомендації щодо подальшого використання
Навчання вашої команди роботі з моделлю
Підтримка протягом 2 тижнів після здачі

Строки та як почати

Орієнтовні строки:

Збір датасету вподобань: від 3 тижнів (під ключ)
Навчання ORPO (7B, LoRA, A100): 3–8 годин
Ітерації λ/β: 3–5 днів
Оцінка (LLM-as-judge + людина): 1 тиждень
Разом: 5–8 тижнів залежно від складності

Зв'яжіться з нами для безкоштовної оцінки вашого проєкту. Ми підберемо оптимальний метод alignment і запропонуємо план робіт. Замовте консультацію — наші інженери проаналізують задачу та дадуть рекомендації.

Практичний розбір LLM: fine-tuning, RAG, агенти, деплой

Модель GPT‑4 або Claude 3.5 Sonnet через публічне API — не рішення, а просто інструмент. Коли приходить вимога «зробити як ChatGPT, але на наших даних», за нею стоїть реальна інженерна задача: від налаштування промптів до навчання 70B‑моделі на власній інфраструктурі. LLM розробка під ключ — це складний стек, і ми займаємося цим понад 5 років. За цей час реалізовано понад 20 проєктів у галузі генеративного AI: від RAG‑систем для юридичних департаментів до кастомних агентів для техпідтримки. Де саме знаходиться ваша задача — залежить від даних, latency‑вимог, бюджету та того, наскільки критична конфіденційність.

Типова ситуація: клієнт уже спробував ChatGPT, але результати нестабільні — то відповідає точно, то галюцинує. Або потрібна інтеграція в корпоративний портал з дотриманням політик безпеки. Розберемо кожен шар стеку в деталях — від RAG до production‑деплою.

Чому RAG‑системи ламаються і як це виправити?

RAG (Retrieval‑Augmented Generation) виглядає просто: знайшли релевантні документи, поклали в контекст, модель відповіла. На практиці збоїть у кількох місцях.

Chunking без перекриття. Класична помилка: chunk_size=512, overlap=0. Якщо відповідь лежить на межі двох чанків, retrieval не знайде жодного з достатньою впевненістю. Рішення: overlap 15–25% від chunk_size, а краще sentence‑aware splitting через spaCy або NLTK, а не наївне розбиття за символами.

Поганий embedder. Текст‑embedding‑ada‑002 — хороший для загального випадку, але на юридичних або медичних текстах програє спеціалізованим моделям: E5‑large‑v2, BGE‑M3 або fine‑tuned sentence‑transformers на доменних даних. Різниця в Recall@5 може становити 15–25%.

Відсутність re‑ranking. Векторний пошук оптимізований за швидкістю, не за релевантністю. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) після первинного retrieval піднімає точність топ‑3 при прийнятній затримці (+50–150 ms). Це часто важливіше за покращення embedding‑моделі.

Гібридний пошук. Тільки dense вектори погано працюють на точних запитах: імена, артикули, коди. BM25 (sparse) добре знаходить точні збіги, але не розуміє семантику. Гібрид через RRF (Reciprocal Rank Fusion) — оптимальний компроміс. Qdrant, Weaviate та pgvector 0.7+ підтримують гібридний пошук нативно.

Типова production‑архітектура корпоративного knowledge base

Документи → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гібридний dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM або OpenAI API)
Відповідь з джерелами (RAGAS для оцінки якості)

Коли варто fine‑tune, а не промпт‑інжиніринг?

Промпт‑інжиніринг вирішує ~70% завдань адаптації LLM під домен. Решта 30% вимагають донавчання. Три ознаки: модель ігнорує специфічний формат виведення навіть при детальному описі в промпті; задача вимагає глибокого знання спеціалізованої лексики (медицина, право); потрібно значно знизити витрати на токени, замінивши велику модель меншою спеціалізованою.

LoRA та QLoRA — стандарт для SFT. LoRA додає trainable low‑rank матриці до attention‑шарів. Типова конфігурація для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — параметрів, що навчаються, ~0.8%, навчання на одній A100 40GB. QLoRA додає 4‑бітну квантизацію (NF4) і дозволяє fine‑tune 70B модель на двох A100 40GB, хоча швидкість падає вдвічі порівняно з bf16.

DPO замість RLHF. Direct Preference Optimization вимагає лише пари (chosen, rejected), а не скалярні reward‑сигнали. DPOTrainer з бібліотеки trl (Hugging Face) реалізує це кількома десятками рядків.

Типова помилка. Датасет з 500 прикладів, 5 епох, validation loss 0.8 — здається норм. Але на тесті модель деградувала на загальних інструкціях. Причина: catastrophic forgetting. Рішення — додати 10–20% загальних instruction‑following прикладів (Alpaca, FLAN) у навчальну вибірку, щоб не зруйнувати вихідні здібності.

Як обрати базову модель: 8B чи 70B?

Модель	Параметри	Сильні сторони	Контекст
Llama‑3.1 8B	8B	Баланс якість/швидкість	128k
Llama‑3.1 70B	70B	Складні міркування	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Ефективність на розмір	32k
Qwen2.5 72B	72B	Код, мультимовність	128k
Gemma 2 27B	27B	Відкрита ліцензія	8k

Для більшості задач fine‑tuning 8B моделі достатньо. 70B потрібен, коли потрібне глибоке міркування або baseline 8B не досягає потрібної якості навіть після донавчання. Вартість інференсу Llama‑3 8B через vLLM на A100 значно нижча, ніж у GPT‑4, що робить його економічно вигідним.

Що дає PagedAttention в production?

vLLM — перший вибір для serving open‑source моделей. PagedAttention — ключове технічне рішення: KV‑cache керується як virtual memory в ОС, без фрагментації. Це дає throughput у 2–4 рази вище порівняно з наївним HuggingFace Transformers inference. Документація vLLM підтверджує: continuous batching та PagedAttention — стандарт для високонавантажених LLM‑сервісів.

Типові числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двох A100 з tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизація AWQ або GPTQ знижує споживання пам'яті в 2 рази при втраті якості в межах 1–3%.

Мультиагентні системи

Агенти — LLM з доступом до інструментів: пошук, виконання коду, запити до API, робота з БД. Основні патерни:

ReAct (Reason + Act): модель розмірковує → обирає інструмент → спостерігає результат → знову розмірковує. LangChain та LlamaIndex реалізують з коробки.
Multi‑agent orchestration: кілька спеціалізованих агентів з координатором зверху. Приклад: coordinator → researcher (пошук + summarization) → coder (генерація та виконання коду) → critic (перевірка). Інструменти: AutoGen (Microsoft), CrewAI, кастомна реалізація на LangGraph.

В продакшені агентні системи недетерміновані. Обов'язкові guardrails, ліміти кроків, логування кожного кроку, human‑in‑the‑loop для критичних дій.

Як ми гарантуємо якість LLM рішення?

Ми використовуємо RAGAS для автоматичної оцінки відповідей: faithfulness, answer relevancy, context precision. Система трекінгу експериментів на базі MLflow фіксує всі метрики, датасети та конфіги. Це дозволяє порівнювати різні гіпотези та доводити покращення з цифрами. Гарантію стабільної роботи забезпечує continuous integration з тестами на специфічних сценаріях (prompt injection, edge‑cases).

Як почати LLM розробку: наступні кроки

Ми передаємо:

Технічну документацію (model card, конфіги, інструкції з розгортання)
Доступ до інфраструктури (репозиторій з кодом, навчені ваги)
1 місяць підтримки після деплою (консультації, виправлення багів)
Навчання команди замовника (2–3 заняття з експлуатації системи)

Терміни: базовий RAG‑прототип — 1–2 тижні. Fine‑tuning з даними замовника — 3–6 тижнів (з урахуванням підготовки даних). Production‑система з моніторингом та перенавчанням — 2–4 місяці.

Етап	Тривалість	Що отримуєте
Аудит та збір даних	1–2 тиж.	Eval‑датасет з 100+ прикладів, формалізація задачі
Baseline (промпт + RAG)	1–2 тиж.	Робочий прототип, метрики якості
Fine‑tuning (якщо потрібно)	2–4 тиж.	Навчена модель, LoRA‑ваги, model card
Деплой та моніторинг	1–2 тиж.	vLLM сервер, Grafana + Prometheus
Документація та навчання	1 тиж.	API‑документація, навчання команди

Вартість розраховується індивідуально і залежить від обсягу даних, складності моделі та вимог до інфраструктури. Хочете оцінити свій проєкт? Зв'яжіться з нами — ми підготуємо попереднє резюме за 1–2 робочі дні. Або замовте консультацію фахівця з вибору підходу: RAG, fine‑tuning або гібрид — розповімо, що підійде саме вам.