Какие модели поддерживает MLC LLM?

MLC LLM поддерживает большинство популярных моделей с Hugging Face: Llama 2/3, Phi, Gemma, Mistral, Falcon и другие. Компилятор автоматически генерирует шейдеры для конкретной модели.

На каких устройствах работает MLC LLM?

MLC LLM поддерживает iPhone с процессорами A12+ и iPad с M1+, а также Android-устройства с Vulkan 1.1+. Мы рекомендуем тестировать на конкретных моделях из вашего парка устройств.

Какой объём памяти требуется для модели?

Для модели Llama-3.2-3B в квантовании q4f16_1 требуется около 2 ГБ VRAM. На iOS это Metal-память, отдельная от системной. Убедитесь, что устройство имеет достаточный запас.

Можно ли переключать модели без перезапуска приложения?

Да, но только последовательно. Выгрузите текущую модель через `engine.unload()`, затем загрузите новую. Две модели одновременно не поддерживаются из-за ограничений памяти.

Сколько времени занимает первая загрузка модели?

Скачивание весов (около 2 ГБ) через `URLSession` с фоновой загрузкой может занять 1-3 минуты на хорошем Wi-Fi. Повторные запуски используют кэш в `applicationSupportDirectory`.

Какие модели поддерживает MLC LLM?

MLC LLM поддерживает большинство популярных моделей с Hugging Face: Llama 2/3, Phi, Gemma, Mistral, Falcon и другие. Компилятор автоматически генерирует шейдеры для конкретной модели.

На каких устройствах работает MLC LLM?

MLC LLM поддерживает iPhone с процессорами A12+ и iPad с M1+, а также Android-устройства с Vulkan 1.1+. Мы рекомендуем тестировать на конкретных моделях из вашего парка устройств.

Какой объём памяти требуется для модели?

Для модели Llama-3.2-3B в квантовании q4f16_1 требуется около 2 ГБ VRAM. На iOS это Metal-память, отдельная от системной. Убедитесь, что устройство имеет достаточный запас.

Можно ли переключать модели без перезапуска приложения?

Да, но только последовательно. Выгрузите текущую модель через `engine.unload()`, затем загрузите новую. Две модели одновременно не поддерживаются из-за ограничений памяти.

Сколько времени занимает первая загрузка модели?

Скачивание весов (около 2 ГБ) через `URLSession` с фоновой загрузкой может занять 1-3 минуты на хорошем Wi-Fi. Повторные запуски используют кэш в `applicationSupportDirectory`.

Интеграция MLC LLM для офлайн AI-ассистента на мобильных устройствах

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

Интеграция MLC LLM для офлайн AI-ассистента на мобильных устройствах

Сложный

~2-4 недели

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
745
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
968
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

Интеграция MLC LLM для офлайн AI-ассистента в мобильном приложении

Представьте: пользователь в метро открывает ваше приложение и получает развёрнутый ответ от AI-ассистента без интернета. Никаких отправок данных на сервер, никаких задержек на сеть. Это реально с MLC LLM — мы внедряли этот стек в несколько коммерческих проектов. Опыт команды — 5+ лет в мобильной разработке, более 15 успешных интеграций on-device ML.

Что такое MLC LLM и зачем он нужен

MLC LLM (Machine Learning Compilation LLM) — проект от команды TVM, который компилирует языковые модели непосредственно под конкретный железный таргет. В отличие от llama.cpp, работающего через универсальный C++ backend, MLC генерирует оптимизированный Metal код для iPhone или Vulkan для Android в момент компиляции модели. Это даёт ощутимый прирост скорости — особенно на Apple Silicon.

Чем MLC отличается от llama.cpp

Llama.cpp интерпретирует GGUF граф в рантайме, используя Metal через общий путь. MLC LLM — AOT (Ahead-Of-Time) компиляция: Python-скрипт генерирует .metal/.vulkan шейдеры специфично для данной модели и данного устройства. Ценой большего времени подготовки получаем более эффективные шейдеры.

На iPhone 14 Pro с Llama-3.2-3B Q4: llama.cpp — 10–14 t/s, MLC LLM — 16–22 t/s. Разница заметна. Наш опыт показывает, что MLC даёт до 50% прироста скорости на последних моделях Apple.

Как компилировать модель под iOS и Android

Компиляция — ключевой этап. Мы подготовили базу из 10+ предварительно скомпилированных моделей, но при необходимости компилируем под конкретный таргет.

# Установка mlc-llm
pip install mlc-llm

# Компиляция модели под iPhone (Metal)
mlc_llm convert_weight \
    ./Llama-3.2-3B-Instruct/ \
    --quantization q4f16_1 \
    --output mlc-llm-weights/

mlc_llm gen_config \
    ./Llama-3.2-3B-Instruct/ \
    --quantization q4f16_1 \
    --conv-template llama-3 \
    --output mlc-llm-config/

mlc_llm compile \
    mlc-llm-config/mlc-chat-config.json \
    --device iphone \
    --output dist/libs/Llama-3.2-3B-Instruct-q4f16_1-iphone.tar

Результат — архив с .dylib и Metal шейдерами. Встраивается в Xcode проект.

Для Android аналогично с --device android:

mlc_llm compile \
    mlc-llm-config/mlc-chat-config.json \
    --device android \
    --output dist/libs/Llama-3.2-3B-Instruct-q4f16_1-android.tar

iOS SDK: интеграция через Swift

MLC LLM предоставляет официальный Swift Package — mlc-swift. Мы написали обёртку, которая добавляет обработку ошибок и перезагрузку после вытеснения из памяти.

import MLCSwift

// Инициализация движка
let engine = MLCEngine()

// Загрузка модели (асинхронно)
try await engine.reload(
    modelPath: Bundle.main.path(forResource: "Llama-3.2-3B", ofType: nil)!,
    modelLib: "Llama-3.2-3B-Instruct-q4f16_1-iphone"  // имя .dylib без расширения
)

// Стриминг через async/await
let messages: [ChatCompletionMessage] = [
    .init(role: .system, content: "You are a helpful assistant."),
    .init(role: .user, content: "Объясни что такое RAG в машинном обучении")
]

let request = ChatCompletionRequest(messages: messages, stream: true)

for await chunk in try await engine.chat.completions.create(request) {
    if let delta = chunk.choices.first?.delta.content {
        // Добавляем дельту к UI в реальном времени
        await MainActor.run { self.responseText += delta }
    }
}

API максимально приближен к OpenAI Chat Completions API — это упрощает переиспользование кода между серверным и on-device вариантом.

Android SDK: интеграция через Kotlin

import ai.mlc.mlcllm.MLCEngine

class LLMViewModel(application: Application) : AndroidViewModel(application) {
    private val engine = MLCEngine()

    suspend fun loadModel(modelPath: String, modelLib: String) {
        engine.reload(modelPath, modelLib)
    }

    fun chat(userMessage: String): Flow<String> = flow {
        val messages = listOf(
            ChatCompletionMessage(role = MessageRole.user, content = userMessage)
        )
        val request = ChatCompletionRequest(messages = messages, stream = true)

        engine.chat.completions.create(request).collect { chunk ->
            chunk.choices.firstOrNull()?.delta?.content?.let { delta ->
                emit(delta)
            }
        }
    }.flowOn(Dispatchers.IO)
}

flowOn(Dispatchers.IO) — инференс не должен блокировать main thread. UI подписывается на Flow через collectAsState() в Compose или launchWhenResumed во Fragment.

Как управлять памятью и обрабатывать вытеснение

Одна модель в памяти одновременно — правило для мобиля. Выгрузка:

await engine.unload()
// Явная выгрузка освобождает Metal bufers и GPU memory
// После этого можно загрузить другую модель

На iOS Metal память — отдельный пул от system RAM, но общий с другими приложениями. Если пользователь переключится на тяжёлое приложение (игра, камера), система может принудительно вытеснить Metal ресурсы — модель нужно перегружать.

// Обработка вытеснения Metal ресурсов
NotificationCenter.default.addObserver(
    forName: .MLCEngineModelUnloaded,  // или собственный механизм детекции
    object: nil, queue: .main
) { [weak self] _ in
    Task { try await self?.engine.reload(...) }
}

Скачивание и управление моделями

Веса модели не встраиваются в app bundle (ограничение App Store — 4 ГБ на весь пакет, а веса могут быть 2–4 ГБ). Скачиваем при первом запуске или по запросу:

// Background download через URLSession
func downloadModel(from url: URL, modelName: String) async throws {
    let destinationURL = Self.modelsDirectory.appendingPathComponent(modelName)
    guard !FileManager.default.fileExists(atPath: destinationURL.path) else { return }

    let (tempURL, _) = try await URLSession.shared.download(from: url)
    try FileManager.default.moveItem(at: tempURL, to: destinationURL)
}

static var modelsDirectory: URL {
    FileManager.default.urls(for: .applicationSupportDirectory, in: .userDomainMask)[0]
        .appendingPathComponent("MLCModels")
}

applicationSupportDirectory — правильное место для больших данных приложения (не Documents, который пользователь видит в Files.app).

Когда выбирать MLC, а когда llama.cpp

Критерий	MLC LLM	llama.cpp
Максимальная скорость на конкретном устройстве	Да, AOT-оптимизация	Нет, интерпретация
Поддержка нестандартных квантований	Ограничено (q4f16_1, q4f32_1 и др.)	Широкий выбор (GGUF)
Старые устройства (iPhone X, Android 10)	Требуется протестировать	Часто лучше
Кастомный семплинг	Базовый	Возможен через C++ API
Простота смены модели	Нужна перекомпиляция	Достаточно нового GGUF файла

MLC LLM предпочтительнее когда: важна максимальная скорость на конкретном устройстве, целевые устройства хорошо известны (можно компилировать под конкретные архитектуры), используете официальные модели с HuggingFace (Llama, Phi, Gemma, Mistral).

llama.cpp предпочтительнее когда: нужна гибкость в выборе квантований, модель приходит в GGUF от партнёров, важна поддержка старых устройств, нужен кастомный семплинг (beam search, специфические параметры температуры).

Почему интеграция MLC от нашей команды — гарантия результата

Мы реализовали этот стек в нескольких коммерческих проектах: от AI-помощника для логистики до офлайн-переводчика. В процессе мы:

Оптимизировали время загрузки модели с 5 секунд до 0.5 секунды за счёт кэширования.
Настроили автоматическую перекомпиляцию моделей под разные партнёрские устройства.
Внедрили сквозной мониторинг падений Metal и Vulkan.

Результат — стабильная работа на 97% устройств. Мы передаём заказчику всю документацию по сборке и интеграции, а также обучаем команду.

Что входит в работу

Анализ целевых устройств и выбор модели
Компиляция MLC LLM под iOS и Android
Интеграция Swift Package / Kotlin SDK
Реализация UI чата со стримингом
Система скачивания и кэширования весов
Обработка вытеснения из памяти и перезагрузки
Тестирование на тепловые троттлинг и утечки памяти
Документация и обучение команды

Процесс работы

Аналитика: обсуждаем задачу, парк устройств, требуемую модель и функционал.
Проектирование: определяем архитектуру, API и flow загрузки.
Компиляция: собираем MLC библиотеки под оба таргета.
Интеграция: встраиваем движок в приложение.
Тестирование: проверяем производительность, стабильность и тепловыделение.
Деплой: помогаем с публикацией в сторах.

Ориентиры по срокам

Объём работ	Сроки
Одна платформа, одна модель, базовый чат	3–5 недель
Обе платформы, несколько моделей, управление весами	7–11 недель

Точную оценку дадим после предварительного интервью. Пишите — обсудим ваш проект.

Хотите получить консультацию по интеграции? Свяжитесь с нами — мы поможем подобрать оптимальное решение.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).