Конвертація моделі у GGUF-формат для llama.cpp
GGUF (GPT-Generated Unified Format) — бінарний формат для зберігання ваг LLM та метаданих, використовується llama.cpp, Ollama, LM Studio, GPT4All. Замінив застарілий формат GGML. Конвертуйте будь-яку LLM-модель HuggingFace у GGUF за кілька команд.
Процес конвертації
Крок 1: Завантажте convert_hf_to_gguf.py з репозиторію llama.cpp
Крок 2: Конвертація в F16 GGUF:
python convert_hf_to_gguf.py /path/to/model --outtype f16 --outfile model-f16.gguf
Крок 3: Квантизація через llama-quantize:
./llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M
Вибір квантизації
| Тип | Розмір (7B модель) | Якість | Застосування |
|---|---|---|---|
| Q4_K_M | ~4.1 GB | Добра | Оптимальний баланс |
| Q5_K_M | ~5.0 GB | Дуже хороша | Коли RAM дозволяє |
| Q8_0 | ~7.7 GB | Відмінна | Максимальна якість |
| Q3_K_M | ~3.3 GB | Прийнятна | Мінімальний розмір |
Підтримувані архітектури
LLaMA, Mistral, Qwen, Phi, Gemma, DeepSeek, Falcon, MPT, GPT-J/NeoX. Повний список в документації llama.cpp.
Тривалість: 1–3 дні
Конвертація — технічна процедура. Основний час — тестування якості виходу після квантизації та вибір оптимального типу квантизації.







