Реализация LoRA-адаптации LLM для мобильного приложения

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения
Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы
Мобильные приложения электронной коммерции
Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы
Мобильные приложения для управления бизнес-процессами
CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных
Мобильные приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем
Показано 1 из 1Все 1735 услуг
Реализация LoRA-адаптации LLM для мобильного приложения
Сложный
~1-2 недели
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_mobile-applications_feedme_467_0.webp
    Разработка мобильного приложения для компании FEEDME
    792
  • image_mobile-applications_xoomer_471_0.webp
    Разработка мобильного приложения для компании XOOMER
    671
  • image_mobile-applications_rhl_428_0.webp
    Разработка мобильного приложения для компании RHL
    1097
  • image_mobile-applications_zippy_411_0.webp
    Разработка мобильного приложения для компании ZIPPY
    969
  • image_mobile-applications_affhome_429_0.webp
    Разработка мобильного приложения для компании Affhome
    914
  • image_mobile-applications_flavors_409_0.webp
    Разработка мобильного приложения для компании FLAVORS
    495

Реализация LoRA-адаптации LLM для мобильного приложения

Full fine-tuning Llama 3 8B требует 80 ГБ GPU-памяти и несколько дней обучения. LoRA (Low-Rank Adaptation) позволяет получить сопоставимое качество, заморозив оригинальные веса и обучая только небольшие матрицы-адаптеры. На практике — A100 40GB вместо кластера, часы вместо суток, и адаптер весом 50–300 МБ вместо 16 ГБ чекпоинта.

Как работает LoRA технически

Оригинальная весовая матрица W размером d × k не изменяется. Вместо неё обучаются две матрицы: A размером d × r и B размером r × k, где r — ранг адаптации (гиперпараметр, обычно 8–64). При инференсе: W_new = W + α * (A × B), где α — scaling-коэффициент.

Ключевые гиперпараметры:

  • r (rank) — чем выше, тем больше параметров обучается и тем дороже адаптация. r=16 — разумный старт
  • lora_alpha — обычно равен 2r или r. Контролирует «силу» адаптации при слиянии весов
  • target_modules — какие слои адаптировать. Для трансформеров: q_proj, v_proj, k_proj, o_proj и опционально gate_proj, up_proj, down_proj
  • lora_dropout — регуляризация, 0.05–0.1 для небольших датасетов

Обучение: Unsloth + Hugging Face PEFT

Unsloth ускоряет LoRA-обучение на 2–5x по сравнению с чистым PEFT за счёт кастомных CUDA-ядер:

from unsloth import FastLanguageModel
import torch

model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="unsloth/Meta-Llama-3.1-8B-Instruct",
    max_seq_length=2048,
    dtype=torch.float16,
    load_in_4bit=True  # QLoRA: 4-bit quantization + LoRA
)

model = FastLanguageModel.get_peft_model(
    model,
    r=16,
    target_modules=["q_proj", "v_proj", "k_proj", "o_proj",
                    "gate_proj", "up_proj", "down_proj"],
    lora_alpha=32,
    lora_dropout=0.05,
    bias="none",
    use_gradient_checkpointing="unsloth"
)

QLoRA — это LoRA поверх 4-битной квантизации базовой модели. Llama 3 8B в 4-bit занимает ~5 ГБ VRAM вместо 16 ГБ в fp16. Минимальный GPU для QLoRA обучения — RTX 3090 (24 ГБ) или арендованный A100 в RunPod/Lambda Labs.

Деплой адаптера: серверный vs on-device

После обучения адаптер сохраняется отдельно от базовой модели. Два пути интеграции с мобильным приложением:

Серверный деплой через vLLM или Ollama. Базовая модель загружена на сервере, адаптер применяется при инициализации или в рантайме. Мобильное приложение работает с API-эндпоинтом — никакого груза модели на устройстве.

# vLLM с LoRA адаптером
vllm serve meta-llama/Llama-3.1-8B-Instruct \
  --enable-lora \
  --lora-modules my-adapter=/path/to/lora/adapter

On-device через llama.cpp / Core ML. Это возможно только для небольших моделей с слиянием весов (merge + GGUF). Для мобильных устройств реально: Llama 3.2 3B или Phi-3.5-mini 3.8B с LoRA-адаптером, смёрженным в GGUF Q4_K_M. Итоговый размер модели — 2–3 ГБ, что укладывается в возможности iPhone 14+ и Galaxy S23+.

# Слияние весов перед экспортом в GGUF
merged_model = model.merge_and_unload()
merged_model.save_pretrained("./merged-model")
# Далее: llama.cpp convert + quantize → .gguf файл

На iOS такой GGUF запускается через llama.swift или через MLModel (если конвертировать в Core ML через coremltools). На Android — llama.cpp через JNI или MediaPipe LLM Inference API для Gemma-моделей.

Типичные ошибки при LoRA-адаптации

Неправильный target_modules. Если адаптировать только q_proj, v_proj, пропустив gate_proj и up_proj в MLP-блоках — эффект будет слабым. Для instruction-following задач важно адаптировать все проекционные слои.

Слишком маленький датасет. LoRA с 50–100 примерами даст переобучение быстрее, чем улучшение. Для доменной адаптации нужно минимум 300–500 разнообразных примеров.

Не заморожена база при слиянии. После merge_and_unload() проверьте, что оригинальные веса не изменились по сравнению с базовой моделью — это сигнализирует о правильной работе LoRA.

Ориентиры по срокам

Подготовка обучающего датасета — 1–2 недели. Настройка среды (RunPod + Unsloth) и запуск обучения — 1–2 дня. Конвертация и тестирование адаптера — 2–3 дня. Интеграция серверного API в мобильное приложение — 2–4 дня. Полный цикл — от 2 до 4 недель.