Конвертация модели в GGUF-формат для llama.cpp
GGUF (GPT-Generated Unified Format) — бинарный формат для хранения LLM весов и метаданных, используемый llama.cpp, Ollama, LM Studio, GPT4All. Заменил устаревший GGML формат. Конвертируем любую HuggingFace LLM-модель в GGUF за несколько команд.
Процесс конвертации
Шаг 1: Скачать convert_hf_to_gguf.py из llama.cpp репозитория
Шаг 2: Конвертация в F16 GGUF:
python convert_hf_to_gguf.py /path/to/model --outtype f16 --outfile model-f16.gguf
Шаг 3: Квантизация через llama-quantize:
./llama-quantize model-f16.gguf model-q4_k_m.gguf Q4_K_M
Выбор квантизации
| Тип | Размер (7B модель) | Качество | Применение |
|---|---|---|---|
| Q4_K_M | ~4.1 GB | Хорошее | Оптимальный баланс |
| Q5_K_M | ~5.0 GB | Очень хорошее | Когда RAM позволяет |
| Q8_0 | ~7.7 GB | Отличное | Максимальное качество |
| Q3_K_M | ~3.3 GB | Приемлемое | Минимальный размер |
Поддерживаемые архитектуры
LLaMA, Mistral, Qwen, Phi, Gemma, DeepSeek, Falcon, MPT, GPT-J/NeoX. Полный список в документации llama.cpp.
Сроки: 1–3 дня
Конвертация — техническая процедура. Основное время — тестирование качества вывода после квантизации и подбор оптимального типа квантизации.







