Який формат квантизації дає найкращу якість при INT4?

На практиці AWQ зазвичай дає на 0.5–1% менше деградації perplexity, ніж GPTQ, особливо на задачах reasoning. Однак різниця може бути непомітною для конкретної моделі — рекомендуємо тестувати обидва формати на ваших даних.

Чи можна квантизувати модель вже після fine-tuning?

Так, і це стандартна практика. Ми квантизуємо fine-tuned модель, щоб зберегти всі доопрацювання і при цьому прискорити інференс. Головне — використовувати calibration dataset, репрезентативний для задач моделі.

GGUF — тільки для CPU чи можна на GPU?

GGUF підтримує частковий offload на GPU через llama.cpp. Але якщо у вас є сучасна NVIDIA GPU з CUDA, AWQ або GPTQ дадуть у 3–5 разів більшу throughput. GGUF — вибір для CPU або гібридних сценаріїв.

Скільки часу займає квантизація 70B моделі?

Квантизація GPTQ/AWQ для моделі 70B параметрів займає 6–18 годин залежно від заліза. GGUF конвертація швидша — 30–60 хвилин. Але тестування і підбір формату можуть зайняти ще 1–3 дні.

Як квантизація впливає на latency та throughput?

При переході з fp16 на INT4 throughput може зрости в 2–3 рази (наприклад, з 180 до 280 tok/s на vLLM), а latency знизитися на 30–50%. Однак на CPU з GGUF Q4_K_M throughput буде лише ~40 tok/s — важливо обирати під залізо.

Який формат квантизації дає найкращу якість при INT4?

На практиці AWQ зазвичай дає на 0.5–1% менше деградації perplexity, ніж GPTQ, особливо на задачах reasoning. Однак різниця може бути непомітною для конкретної моделі — рекомендуємо тестувати обидва формати на ваших даних.

Чи можна квантизувати модель вже після fine-tuning?

Так, і це стандартна практика. Ми квантизуємо fine-tuned модель, щоб зберегти всі доопрацювання і при цьому прискорити інференс. Головне — використовувати calibration dataset, репрезентативний для задач моделі.

GGUF — тільки для CPU чи можна на GPU?

GGUF підтримує частковий offload на GPU через llama.cpp. Але якщо у вас є сучасна NVIDIA GPU з CUDA, AWQ або GPTQ дадуть у 3–5 разів більшу throughput. GGUF — вибір для CPU або гібридних сценаріїв.

Скільки часу займає квантизація 70B моделі?

Квантизація GPTQ/AWQ для моделі 70B параметрів займає 6–18 годин залежно від заліза. GGUF конвертація швидша — 30–60 хвилин. Але тестування і підбір формату можуть зайняти ще 1–3 дні.

Як квантизація впливає на latency та throughput?

При переході з fp16 на INT4 throughput може зрости в 2–3 рази (наприклад, з 180 до 280 tok/s на vLLM), а latency знизитися на 30–50%. Однак на CPU з GGUF Q4_K_M throughput буде лише ~40 tok/s — важливо обирати під залізо.

Оптимізація LLM: вибір формату квантизації (INT8, INT4, GPTQ, AWQ, GGUF)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Оптимізація LLM: вибір формату квантизації (INT8, INT4, GPTQ, AWQ, GGUF)

Середній

від 1 дня до 3 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Як обрати формат квантизації LLM: порівняння INT8, INT4, GPTQ, AWQ, GGUF

70B модель у fp16 важить 140 ГБ — не вміщається на дві RTX 3090. Квантизація LLM — єдиний спосіб стиснути до 35 ГБ з мінімальною втратою якості. За понад 5 років ми допомогли більш ніж 100 проектів оптимізувати інференс, скоротивши витрати на обладнання до 75% (економія до $10,000 на місяць на оренді GPU). Гарантія якості — сертифіковані фахівці.

Чому квантизація LLM критична для деплою?

Нестача VRAM — головна проблема при деплої великих мовних моделей. Модель 70B у fp16 не вміщається в одну consumer GPU, а дві RTX 3090 дають 48 ГБ — після квантизації до INT4 залишається запас для пакетної обробки. Швидкість інференсу зростає з 50 до 200+ tok/s, а вартість оренди GPU (наприклад, 8×A100) знижується в 4 рази — достатньо 2×L40. Економія обладнання — ключовий драйвер: квантизація 70B моделі до INT4 дозволяє розгорнути її на двох RTX 3090 замість восьми A100, знижуючи капітальні витрати в 4 рази. Зниження витрат на оренду GPU при переході з fp16 на INT4 складає до 75% за рахунок скорочення необхідної кількості прискорювачів.

Порівняння форматів квантизації

Таблиця форматів

Формат	Точність	Стиснення (vs fp16)	Якість (perplexity)	Застосування
fp16	16-bit float	1×	Baseline	GPU inference
INT8 (bitsandbytes)	8-bit int	2×	-0.5–1%	GPU, легко
GPTQ INT4	4-bit group-quant	4×	-1–2%	GPU, production
AWQ INT4	4-bit activation-aware	4×	-0.5–1.5%	GPU, краще GPTQ на 20% по perplexity
GGUF Q4_K_M	4-bit mixed	4×	-1–2%	CPU/GPU llama.cpp
GGUF Q8_0	8-bit	2×	-0.3–0.5%	CPU/GPU llama.cpp
GGUF Q2_K	2-bit	8×	-5–10%	Крайній випадок
EXL2	2–8 bit mixed	2–8×	Configurable	GPU, ExLlamaV2

Кожен формат вимагає calibration dataset (128–512 прикладів), репрезентативного для задач моделі. Неправильний calibration погіршує якість — ми підбираємо його під проект.

Який формат квантизації обрати?

GPTQ: Post‑Training Quantization з корекцією помилок

GPTQ квантизує пошарово, мінімізуючи помилку на невеликому calibration датасеті:

from transformers import AutoModelForCausalLM, GPTQConfig

gptq_config = GPTQConfig(
    bits=4,
    dataset="c4",
    desc_act=True,
    group_size=128,
    damp_percent=0.1,
)

model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Meta-Llama-3.1-8B-Instruct",
    quantization_config=gptq_config,
    device_map="auto"
)

model.save_pretrained("./llama3-8b-gptq-int4")

Calibration займає 30–120 хвилин на CPU або GPU. Як показано в GPTQ (https://github.com/IST-DASLab/gptq), цей метод забезпечує якість, близьку до fp16, при 4-кратному стисненні.

AWQ: Activation‑Aware Weight Quantization

AWQ визначає «важливі» ваги по активаціях і захищає їх від агресивної квантизації:

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model = AutoAWQForCausalLM.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")
tokenizer = AutoTokenizer.from_pretrained("meta-llama/Meta-Llama-3.1-8B-Instruct")

quant_config = {
    "zero_point": True,
    "q_group_size": 128,
    "w_bit": 4,
    "version": "GEMM"
}

model.quantize(tokenizer, quant_config=quant_config)
model.save_quantized("./llama3-8b-awq")

AWQ дає приріст ~0.5–1% по perplexity на задачах reasoning порівняно з GPTQ (див. AWQ (https://github.com/mit-han-lab/awq)).

GGUF: універсальний формат для llama.cpp

GGUF — формат для деплою через llama.cpp, що підтримує CPU-інференс і partial GPU offloading:

# Конвертація HuggingFace моделі в GGUF
python convert_hf_to_gguf.py \
  --model meta-llama/Meta-Llama-3.1-8B-Instruct \
  --outtype f16 \
  --outfile llama3-8b-f16.gguf

# Квантизація в Q4_K_M (рекомендується)
./quantize llama3-8b-f16.gguf llama3-8b-q4km.gguf Q4_K_M

Варіанти квантизації GGUF (від найкращої якості до меншого розміру):

Q8_0: 8-bit, ~8.5GB для 8B моделі, відмінна якість
Q6_K: 6-bit, ~6.1GB, висока якість
Q5_K_M: 5-bit mixed, ~5.1GB, хороша якість
Q4_K_M: 4-bit mixed, ~4.1GB, рекомендується для більшості задач
Q3_K_M: 3-bit, ~3.2GB, помітна деградація

Покроковий алгоритм вибору формату

Алгоритм вибору

Визначте залізо: яка GPU, скільки VRAM, чи допустимий CPU-інференс.
Виміряйте baseline: latency та throughput на fp16/bf16.
Оберіть 2–3 кандидати: для NVIDIA GPU — AWQ та GPTQ; для CPU/гібриду — GGUF.
Проведіть квантизацію та протестуйте на ваших даних: perplexity, метрики задачі, latency P95.
Порівняйте та оберіть оптимум. Якщо різниця непомітна — беріть формат з кращою підтримкою (AWQ або GGUF).

Практичний приклад: деплой на 2×RTX 3090

Задача: деплой fine-tuned Llama 3.1 8B на сервері з 2×RTX 3090 (48GB VRAM сумарно) для 50 concurrent users.

Вимоги: latency P95 < 3с, throughput > 100 tok/s.

Результати тестування

Формат	VRAM	Throughput (vLLM)	Latency P95	Якість (perplexity)
bf16	16 GB	180 tok/s	1.8с	Baseline
AWQ INT4	5 GB	280 tok/s	1.2с	98.5% baseline (perplexity 0.5% вище)
GPTQ INT4	5 GB	260 tok/s	1.3с	98% baseline
GGUF Q4_K_M	4.1 GB (CPU)	40 tok/s	8с	98% baseline

Вибір: AWQ INT4 — вміщується в одну 3090 24GB з резервом, throughput 280 tok/s перекриває вимогу, якість мінімально деградує.

Інференс квантизованої моделі через vLLM

from vllm import LLM, SamplingParams

# AWQ модель
llm = LLM(
    model="./llama3-8b-awq",
    quantization="awq",
    dtype="auto",
    gpu_memory_utilization=0.85,
)

# GPTQ модель
llm = LLM(
    model="./llama3-8b-gptq-int4",
    quantization="gptq",
    dtype="auto",
)

outputs = llm.generate(["Привіт, як справи?"], SamplingParams(max_tokens=200))

Коли квантизація неефективна?

Якщо модель вже працює з прийнятним часом відповіді і не впирається в VRAM — квантизація надлишкова. Також вона не підходить для задач, де критична кожна десята відсотка якості (medical, legal). У таких випадках залишають fp16 або bf16, але жертвують швидкістю.

Що входить в роботу та терміни

Аналіз моделі та заліза, підбір 2–3 форматів для тесту
Квантизація (GPTQ/AWQ/GGUF) з calibration на ваших даних
Інтеграція через vLLM, llama.cpp або Triton Inference Server
Тестування latency P50/P95/P99, throughput, якості (perplexity + метрики задачі)
Документація по розгортанню та експлуатації
Навчання команди роботі з квантизованою моделлю

Орієнтовні терміни:

GPTQ/AWQ для 8B моделі: 1–3 години. Для 70B: 6–18 годин.
GGUF конвертація: 15–60 хвилин.
Тестування та вибір формату: 1–3 дні.
Разом: 2–5 днів під ключ.

Оцінимо ваш проект за 1 день — зв'яжіться з нами, ми підберемо оптимальний формат квантизації. Замовте аудит моделі та отримайте рекомендацію по квантизації. Досвід — понад 5 років і 100+ успішних кейсів.

Практичний розбір LLM: fine-tuning, RAG, агенти, деплой

Модель GPT‑4 або Claude 3.5 Sonnet через публічне API — не рішення, а просто інструмент. Коли приходить вимога «зробити як ChatGPT, але на наших даних», за нею стоїть реальна інженерна задача: від налаштування промптів до навчання 70B‑моделі на власній інфраструктурі. LLM розробка під ключ — це складний стек, і ми займаємося цим понад 5 років. За цей час реалізовано понад 20 проєктів у галузі генеративного AI: від RAG‑систем для юридичних департаментів до кастомних агентів для техпідтримки. Де саме знаходиться ваша задача — залежить від даних, latency‑вимог, бюджету та того, наскільки критична конфіденційність.

Типова ситуація: клієнт уже спробував ChatGPT, але результати нестабільні — то відповідає точно, то галюцинує. Або потрібна інтеграція в корпоративний портал з дотриманням політик безпеки. Розберемо кожен шар стеку в деталях — від RAG до production‑деплою.

Чому RAG‑системи ламаються і як це виправити?

RAG (Retrieval‑Augmented Generation) виглядає просто: знайшли релевантні документи, поклали в контекст, модель відповіла. На практиці збоїть у кількох місцях.

Chunking без перекриття. Класична помилка: chunk_size=512, overlap=0. Якщо відповідь лежить на межі двох чанків, retrieval не знайде жодного з достатньою впевненістю. Рішення: overlap 15–25% від chunk_size, а краще sentence‑aware splitting через spaCy або NLTK, а не наївне розбиття за символами.

Поганий embedder. Текст‑embedding‑ada‑002 — хороший для загального випадку, але на юридичних або медичних текстах програє спеціалізованим моделям: E5‑large‑v2, BGE‑M3 або fine‑tuned sentence‑transformers на доменних даних. Різниця в Recall@5 може становити 15–25%.

Відсутність re‑ranking. Векторний пошук оптимізований за швидкістю, не за релевантністю. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) після первинного retrieval піднімає точність топ‑3 при прийнятній затримці (+50–150 ms). Це часто важливіше за покращення embedding‑моделі.

Гібридний пошук. Тільки dense вектори погано працюють на точних запитах: імена, артикули, коди. BM25 (sparse) добре знаходить точні збіги, але не розуміє семантику. Гібрид через RRF (Reciprocal Rank Fusion) — оптимальний компроміс. Qdrant, Weaviate та pgvector 0.7+ підтримують гібридний пошук нативно.

Типова production‑архітектура корпоративного knowledge base

Документи → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гібридний dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM або OpenAI API)
Відповідь з джерелами (RAGAS для оцінки якості)

Коли варто fine‑tune, а не промпт‑інжиніринг?

Промпт‑інжиніринг вирішує ~70% завдань адаптації LLM під домен. Решта 30% вимагають донавчання. Три ознаки: модель ігнорує специфічний формат виведення навіть при детальному описі в промпті; задача вимагає глибокого знання спеціалізованої лексики (медицина, право); потрібно значно знизити витрати на токени, замінивши велику модель меншою спеціалізованою.

LoRA та QLoRA — стандарт для SFT. LoRA додає trainable low‑rank матриці до attention‑шарів. Типова конфігурація для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — параметрів, що навчаються, ~0.8%, навчання на одній A100 40GB. QLoRA додає 4‑бітну квантизацію (NF4) і дозволяє fine‑tune 70B модель на двох A100 40GB, хоча швидкість падає вдвічі порівняно з bf16.

DPO замість RLHF. Direct Preference Optimization вимагає лише пари (chosen, rejected), а не скалярні reward‑сигнали. DPOTrainer з бібліотеки trl (Hugging Face) реалізує це кількома десятками рядків.

Типова помилка. Датасет з 500 прикладів, 5 епох, validation loss 0.8 — здається норм. Але на тесті модель деградувала на загальних інструкціях. Причина: catastrophic forgetting. Рішення — додати 10–20% загальних instruction‑following прикладів (Alpaca, FLAN) у навчальну вибірку, щоб не зруйнувати вихідні здібності.

Як обрати базову модель: 8B чи 70B?

Модель	Параметри	Сильні сторони	Контекст
Llama‑3.1 8B	8B	Баланс якість/швидкість	128k
Llama‑3.1 70B	70B	Складні міркування	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Ефективність на розмір	32k
Qwen2.5 72B	72B	Код, мультимовність	128k
Gemma 2 27B	27B	Відкрита ліцензія	8k

Для більшості задач fine‑tuning 8B моделі достатньо. 70B потрібен, коли потрібне глибоке міркування або baseline 8B не досягає потрібної якості навіть після донавчання. Вартість інференсу Llama‑3 8B через vLLM на A100 значно нижча, ніж у GPT‑4, що робить його економічно вигідним.

Що дає PagedAttention в production?

vLLM — перший вибір для serving open‑source моделей. PagedAttention — ключове технічне рішення: KV‑cache керується як virtual memory в ОС, без фрагментації. Це дає throughput у 2–4 рази вище порівняно з наївним HuggingFace Transformers inference. Документація vLLM підтверджує: continuous batching та PagedAttention — стандарт для високонавантажених LLM‑сервісів.

Типові числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двох A100 з tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизація AWQ або GPTQ знижує споживання пам'яті в 2 рази при втраті якості в межах 1–3%.

Мультиагентні системи

Агенти — LLM з доступом до інструментів: пошук, виконання коду, запити до API, робота з БД. Основні патерни:

ReAct (Reason + Act): модель розмірковує → обирає інструмент → спостерігає результат → знову розмірковує. LangChain та LlamaIndex реалізують з коробки.
Multi‑agent orchestration: кілька спеціалізованих агентів з координатором зверху. Приклад: coordinator → researcher (пошук + summarization) → coder (генерація та виконання коду) → critic (перевірка). Інструменти: AutoGen (Microsoft), CrewAI, кастомна реалізація на LangGraph.

В продакшені агентні системи недетерміновані. Обов'язкові guardrails, ліміти кроків, логування кожного кроку, human‑in‑the‑loop для критичних дій.

Як ми гарантуємо якість LLM рішення?

Ми використовуємо RAGAS для автоматичної оцінки відповідей: faithfulness, answer relevancy, context precision. Система трекінгу експериментів на базі MLflow фіксує всі метрики, датасети та конфіги. Це дозволяє порівнювати різні гіпотези та доводити покращення з цифрами. Гарантію стабільної роботи забезпечує continuous integration з тестами на специфічних сценаріях (prompt injection, edge‑cases).

Як почати LLM розробку: наступні кроки

Ми передаємо:

Технічну документацію (model card, конфіги, інструкції з розгортання)
Доступ до інфраструктури (репозиторій з кодом, навчені ваги)
1 місяць підтримки після деплою (консультації, виправлення багів)
Навчання команди замовника (2–3 заняття з експлуатації системи)

Терміни: базовий RAG‑прототип — 1–2 тижні. Fine‑tuning з даними замовника — 3–6 тижнів (з урахуванням підготовки даних). Production‑система з моніторингом та перенавчанням — 2–4 місяці.

Етап	Тривалість	Що отримуєте
Аудит та збір даних	1–2 тиж.	Eval‑датасет з 100+ прикладів, формалізація задачі
Baseline (промпт + RAG)	1–2 тиж.	Робочий прототип, метрики якості
Fine‑tuning (якщо потрібно)	2–4 тиж.	Навчена модель, LoRA‑ваги, model card
Деплой та моніторинг	1–2 тиж.	vLLM сервер, Grafana + Prometheus
Документація та навчання	1 тиж.	API‑документація, навчання команди

Вартість розраховується індивідуально і залежить від обсягу даних, складності моделі та вимог до інфраструктури. Хочете оцінити свій проєкт? Зв'яжіться з нами — ми підготуємо попереднє резюме за 1–2 робочі дні. Або замовте консультацію фахівця з вибору підходу: RAG, fine‑tuning або гібрид — розповімо, що підійде саме вам.