Розробка AI-асистента на базі Llama (Meta) у мобільному додатку
Llama—сімейство моделей Meta з відкритими вагами. Це єдиний вибір, коли потрібен асистент, який працює повністю на пристрої (немає сервера, немає хмари, немає витоку даних), або коли потрібна тонка настройка моделі під предметну область через fine-tuning на власних даних. Але «відкриті ваги» не означає «працює на телефоні з коробки»—потрібна суттєва технічна робота щодо квантування та вибору runtime.
Архітектура: On-Device vs Server Llama
Два абсолютно різні сценарії:
On-device (Llama на пристрої) — модель завантажується в пам'ять телефону, вивід без інтернету. Реалістичне для Llama 3.2 1B та 3B у INT4 квантуванні. Llama 3.2 3B INT4 займає ~2 ГБ RAM і працює на iPhone 15 Pro зі швидкістю 15–25 токенів/сек.
Server Llama — модель на власному GPU-сервері (або орендованому), мобільний клієнт спілкується через API. Дозволяє використовувати Llama 3.3 70B або Llama 3.1 405B—повні моделі, невідрізні за якістю від GPT-4.
Для більшості комерційних додатків—серверний варіант. On-device виправданий суворими вимогами до приватності (медичні дані ніколи не залишають пристрій) або роботою без інтернету.
On-Device: llama.cpp, Core ML, ExecuTorch
llama.cpp — найдозрілішим runtime для запуску GGUF-моделей. На iOS: компілюється як C++ бібліотека, викликається через Objective-C++ bridging header. На Android: через JNI. Складність—побудова для різних архітектур (arm64-v8a для сучасних пристроїв, armeabi-v7a для старіших).
// iOS — мінімальна обгортка над llama.cpp
class LlamaContext {
private var context: OpaquePointer?
init(modelPath: String) {
var params = llama_context_default_params()
params.n_ctx = 4096
params.n_threads = 4 // менше потоків — менше тепла
let model = llama_load_model_from_file(modelPath, llama_model_default_params())
context = llama_new_context_with_model(model, params)
}
func generate(prompt: String, maxTokens: Int = 256) -> AsyncStream<String> {
// tokenize → sample loop → detokenize
}
}
Apple MLX / Core ML — Apple надає офіційний конвертер для Llama моделей у Core ML формат. Перевага: Neural Engine залучається автоматично, вивід швидше та холоднее, ніж через CPU. Обмеження: тільки iOS 17+.
ExecuTorch — Meta's runtime для мобілів, офіційно підтримує Llama 3. Більш складна побудова, але краще Android Neural Networks API інтеграція.
Квантування: вибір точності
| Тип | Розмір (3B) | Якість | Швидкість |
|---|---|---|---|
| FP16 | ~6 ГБ | Еталонна | Повільно |
| Q8_0 | ~3.3 ГБ | ≈FP16 | Помірно |
| Q4_K_M | ~2.0 ГБ | Хороша | Швидко |
| Q2_K | ~1.3 ГБ | Помітно гірша | Дуже швидко |
Для більшості мобільних завдань—Q4_K_M оптимальний баланс. Q2_K можна розглядати для пристроїв з 4 ГБ RAM.
Server Llama: Ollama та vLLM
Для серверного розгортування—Ollama (простота) або vLLM (продуктивність). Ollama виставляє OpenAI-сумісний API: POST /api/chat, формат запиту ідентичний OpenAI Chat Completions. Мобільний клієнт, написаний для OpenAI, працює з Ollama без змін—просто змініть базову URL.
vLLM переважна для продакшену з навантаженням: continuous batching, tensor parallelism на кількох GPU, throughput на порядки вищий, ніж Ollama.
Fine-tuning: коли та як
Базова Llama достатня для загального асистента. Fine-tuning виправданий, коли потрібна спеціалізація: медичні терміни, юридичний стиль, специфіка галузі. LoRA/QLoRA—стандартний підхід для fine-tuning на одному GPU. Навчені адаптери (~50–100 МБ) завантажуються поверх базової моделі.
Кошторис строків
Server Llama з Ollama та мобільним клієнтом—1–2 тижні. On-device через llama.cpp зі збіркою для iOS/Android та управлінням завантаженням моделі—3–5 тижнів. Fine-tuning плюс розгортування—окремий кошторис.







