Розробка AI-асистента у мобільному додатку на базі Llama (Meta)

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми
Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори
Мобільні програми електронної комерції
Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи
Мобільні програми для управління бізнес-процесами
CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних
Мобільні програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо
Показано 1 з 1Усі 1735 послуг
Розробка AI-асистента у мобільному додатку на базі Llama (Meta)
Складний
~3-5 днів
Часті запитання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_mobile-applications_feedme_467_0.webp
    Розробка мобільного додатка для компанії FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Розробка мобільного додатку для компанії XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Розробка мобільного додатку для компанії RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Розробка мобільного додатку для компанії ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Розробка мобільного додатку для компанії Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Розробка мобільного додатку для компанії FLAVORS
    495

Розробка AI-асистента на базі Llama (Meta) у мобільному додатку

Llama—сімейство моделей Meta з відкритими вагами. Це єдиний вибір, коли потрібен асистент, який працює повністю на пристрої (немає сервера, немає хмари, немає витоку даних), або коли потрібна тонка настройка моделі під предметну область через fine-tuning на власних даних. Але «відкриті ваги» не означає «працює на телефоні з коробки»—потрібна суттєва технічна робота щодо квантування та вибору runtime.

Архітектура: On-Device vs Server Llama

Два абсолютно різні сценарії:

On-device (Llama на пристрої) — модель завантажується в пам'ять телефону, вивід без інтернету. Реалістичне для Llama 3.2 1B та 3B у INT4 квантуванні. Llama 3.2 3B INT4 займає ~2 ГБ RAM і працює на iPhone 15 Pro зі швидкістю 15–25 токенів/сек.

Server Llama — модель на власному GPU-сервері (або орендованому), мобільний клієнт спілкується через API. Дозволяє використовувати Llama 3.3 70B або Llama 3.1 405B—повні моделі, невідрізні за якістю від GPT-4.

Для більшості комерційних додатків—серверний варіант. On-device виправданий суворими вимогами до приватності (медичні дані ніколи не залишають пристрій) або роботою без інтернету.

On-Device: llama.cpp, Core ML, ExecuTorch

llama.cpp — найдозрілішим runtime для запуску GGUF-моделей. На iOS: компілюється як C++ бібліотека, викликається через Objective-C++ bridging header. На Android: через JNI. Складність—побудова для різних архітектур (arm64-v8a для сучасних пристроїв, armeabi-v7a для старіших).

// iOS — мінімальна обгортка над llama.cpp
class LlamaContext {
    private var context: OpaquePointer?

    init(modelPath: String) {
        var params = llama_context_default_params()
        params.n_ctx = 4096
        params.n_threads = 4  // менше потоків — менше тепла
        let model = llama_load_model_from_file(modelPath, llama_model_default_params())
        context = llama_new_context_with_model(model, params)
    }

    func generate(prompt: String, maxTokens: Int = 256) -> AsyncStream<String> {
        // tokenize → sample loop → detokenize
    }
}

Apple MLX / Core ML — Apple надає офіційний конвертер для Llama моделей у Core ML формат. Перевага: Neural Engine залучається автоматично, вивід швидше та холоднее, ніж через CPU. Обмеження: тільки iOS 17+.

ExecuTorch — Meta's runtime для мобілів, офіційно підтримує Llama 3. Більш складна побудова, але краще Android Neural Networks API інтеграція.

Квантування: вибір точності

Тип Розмір (3B) Якість Швидкість
FP16 ~6 ГБ Еталонна Повільно
Q8_0 ~3.3 ГБ ≈FP16 Помірно
Q4_K_M ~2.0 ГБ Хороша Швидко
Q2_K ~1.3 ГБ Помітно гірша Дуже швидко

Для більшості мобільних завдань—Q4_K_M оптимальний баланс. Q2_K можна розглядати для пристроїв з 4 ГБ RAM.

Server Llama: Ollama та vLLM

Для серверного розгортування—Ollama (простота) або vLLM (продуктивність). Ollama виставляє OpenAI-сумісний API: POST /api/chat, формат запиту ідентичний OpenAI Chat Completions. Мобільний клієнт, написаний для OpenAI, працює з Ollama без змін—просто змініть базову URL.

vLLM переважна для продакшену з навантаженням: continuous batching, tensor parallelism на кількох GPU, throughput на порядки вищий, ніж Ollama.

Fine-tuning: коли та як

Базова Llama достатня для загального асистента. Fine-tuning виправданий, коли потрібна спеціалізація: медичні терміни, юридичний стиль, специфіка галузі. LoRA/QLoRA—стандартний підхід для fine-tuning на одному GPU. Навчені адаптери (~50–100 МБ) завантажуються поверх базової моделі.

Кошторис строків

Server Llama з Ollama та мобільним клієнтом—1–2 тижні. On-device через llama.cpp зі збіркою для iOS/Android та управлінням завантаженням моделі—3–5 тижнів. Fine-tuning плюс розгортування—окремий кошторис.