Как конвертировать PyTorch модель в Core ML?

Используем coremltools Python-пакет. Сначала трассируем модель через torch.jit.trace, затем конвертируем с ct.convert, указывая входной тип (например, ImageType для картинок) и целевые compute units. Для переменных размерностей применяем ct.RangeDim.

Какие проблемы возникают при конвертации и как их решить?

Основные проблемы: dynamic shapes (решение — RangeDim), неподдерживаемые операции (переписать на стандартные примитивы или добавить кастомный слой) и ошибки на симуляторе x86 (тестировать только на реальном устройстве).

Как запустить Core ML модель на iOS?

Загружаем .mlpackage из bundle через MLModelConfiguration с computeUnits = .all. Инференс выполняем в фоновом потоке через prediction(input:). Для Vision удобнее VNCoreMLRequest — он автоматически ресайзит входное изображение.

Можно ли обновить модель без обновления приложения?

Да, Core ML поддерживает загрузку модели из произвольного URL. Скачиваем новый .mlpackage на устройство, сохраняем в Documents и загружаем оттуда. Не забудьте добавить верификацию по SHA-256.

Сколько времени занимает интеграция Core ML?

Базовая интеграция существующей модели — 1–2 недели. Если модель сложная, с нестандартными операциями и remote update — 3–5 недель. Сроки уточняем после анализа весов.

Как конвертировать PyTorch модель в Core ML?

Используем coremltools Python-пакет. Сначала трассируем модель через torch.jit.trace, затем конвертируем с ct.convert, указывая входной тип (например, ImageType для картинок) и целевые compute units. Для переменных размерностей применяем ct.RangeDim.

Какие проблемы возникают при конвертации и как их решить?

Основные проблемы: dynamic shapes (решение — RangeDim), неподдерживаемые операции (переписать на стандартные примитивы или добавить кастомный слой) и ошибки на симуляторе x86 (тестировать только на реальном устройстве).

Как запустить Core ML модель на iOS?

Загружаем .mlpackage из bundle через MLModelConfiguration с computeUnits = .all. Инференс выполняем в фоновом потоке через prediction(input:). Для Vision удобнее VNCoreMLRequest — он автоматически ресайзит входное изображение.

Можно ли обновить модель без обновления приложения?

Да, Core ML поддерживает загрузку модели из произвольного URL. Скачиваем новый .mlpackage на устройство, сохраняем в Documents и загружаем оттуда. Не забудьте добавить верификацию по SHA-256.

Сколько времени занимает интеграция Core ML?

Базовая интеграция существующей модели — 1–2 недели. Если модель сложная, с нестандартными операциями и remote update — 3–5 недель. Сроки уточняем после анализа весов.

Интегрируем Core ML на iOS: офлайн AI без облака

TRUETECH занимается разработкой, поддержкой и обслуживанием мобильных приложений iOS, Android, PWA. Имеем большой опыт и экспертизу для публикации мобильных приложений в популярные маркеты Google Play, App Store, Amazon, AppGallery и другие.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Разработка и поддержка любых видов мобильных приложений:

Информационные и развлекательные мобильные приложения

Новостные приложения, игры, справочники, онлайн-каталоги, погодные, фитнес и здоровье, туристические, образовательные, социальные сети и мессенджеры, квиз, блоги и подкасты, форумы, агрегаторы

Мобильные приложения электронной коммерции

Интернет-магазины, B2B-приложения, маркетплейсы, онлайн-обменники, кэшбэк-сервисы, биржи, дропшиппинг-платформы, программы лояльности, доставка еды и товаров, платежные системы

Мобильные приложения для управления бизнес-процессами

CRM-системы, ERP-системы, управление проектами, инструменты для команды продаж, учет финансов, управление производством, логистика и доставка, управление персоналом, системы мониторинга данных

Мобильные приложения электронных услуг

Доски объявлений, онлайн-школы, онлайн-кинотеатры, платформы предоставления электронных услуг, платформы кешбека, видеохостинги, тематические порталы, платформы онлайн-бронирования и записи, платформы онлайн-торговли

Это лишь некоторые из типы мобильных приложений, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента.

Услуги, которые мы предлагаем

Показано 1 из 1Все 1734 услуг

Интегрируем Core ML на iOS: офлайн AI без облака

Сложный

~1-2 недели

Часто задаваемые вопросы

Наши компетенции:

Бесплатная консультация

Закажите бесплатную консультацию если у вас есть вопросы. Профильный специалист вас проконсультирует.

Расчет стоимости

Если вы знаете, что именно вам нужно разработать, или у вас уже есть готовое техническое задание.

Этапы разработки

Последние работы

Разработка мобильного приложения для компании FEEDME
858
Разработка мобильного приложения для компании XOOMER
745
Разработка мобильного приложения для компании RHL
1162
Разработка мобильного приложения для компании ZIPPY
1034
Разработка мобильного приложения для компании Affhome
968
Разработка мобильного приложения для компании FLAVORS
563

Показать больше работ

Вы тренируете модель классификации изображений на PyTorch — accuracy 95%, но как запустить её на iOS без задержек и без отправки данных в облако? Core ML с on-device inference решает эту задачу. Мы интегрируем Core ML модели в iOS-приложения для полностью офлайн-работы AI. Скорость инференса — единицы миллисекунд, данные остаются на устройстве, задержки сети отсутствуют. Наша команда — 7 лет в мобильной разработке, более 50 успешных интеграций Core ML. Экономия на серверных инференсах может достигать 60% (более 200 000 ₽ в год для среднестатистического проекта). Мы гарантируем качество интеграции, подтверждённое сертификатами Apple Developer.

Как работает конвертация: от весов до .mlpackage

Большинство современных моделей приходят как PyTorch checkpoint или ONNX файл. Мы конвертируем через coremltools — официальный Python-пакет Apple:

import coremltools as ct
import torch

# Допустим, у нас PyTorch модель классификации изображений
model = MyModel()
model.load_state_dict(torch.load("model.pth"))
model.eval()

# Tracing — нужно передать пример входных данных
example_input = torch.zeros(1, 3, 224, 224)
traced = torch.jit.trace(model, example_input)

# Конвертация
mlmodel = ct.convert(
    traced,
    inputs=[ct.ImageType(
        name="input_image",
        shape=(1, 3, 224, 224),
        color_layout=ct.colorlayout.RGB,
        bias=[-0.485/0.229, -0.456/0.224, -0.406/0.225],  # ImageNet нормализация
        scale=1/(255.0 * 0.229)  # встроена в модель, не нужно делать в Swift
    )],
    outputs=[ct.TensorType(name="class_probabilities")],
    compute_precision=ct.precision.FLOAT16,  # для ANE
    minimum_deployment_target=ct.target.iOS16
)

mlmodel.save("MyClassifier.mlpackage")

FLOAT16 + minimum_deployment_target=iOS16 активирует Apple Neural Engine. На iPhone 14 это 4–8× быстрее GPU для inference, при этом батарея расходуется значительно меньше. Согласно документации Apple по Core ML, ANE ускоряет инференс в 4–8 раз по сравнению с GPU. На более старых iOS версиях та же модель запускается через Metal GPU.

Как конвертировать модель из PyTorch в Core ML?

Dynamic shapes — модели с torch.Size([batch, seq_len, hidden]) где seq_len не фиксирован ломают torch.jit.trace. Решение: ct.RangeDim для переменных размеров или задать несколько конфигураций через ct.EnumeratedShapes.

# Переменная длина последовательности
flexible_shape = ct.Shape(shape=(1, ct.RangeDim(1, 512), 768))
mlmodel = ct.convert(model, inputs=[ct.TensorType(shape=flexible_shape)])

Неподдерживаемые операции — например, кастомные CUDA kernels. coremltools выбросит NotImplementedError. Путь: либо переписать операцию на стандартных PyTorch примитивах, либо добавить кастомный слой через C++/Swift extension.

Ошибка Unsupported model format при загрузке .mlpackage на симуляторе x86 — симулятор использует CPU fallback, некоторые FLOAT16 операции не поддерживаются. Тестировать точность — только на реальном устройстве.

Загрузка и запуск на iOS

import CoreML
import Vision

// Загрузка модели (один раз при старте)
let config = MLModelConfiguration()
config.computeUnits = .all  // ANE + GPU + CPU

// .mlpackage загружается из bundle
guard let modelURL = Bundle.main.url(forResource: "MyClassifier", withExtension: "mlpackage"),
      let model = try? MyClassifier(contentsOf: modelURL, configuration: config) else {
    fatalError("Не удалось загрузить модель")
}

// Инференс — в фоновом потоке
DispatchQueue.global(qos: .userInitiated).async {
    do {
        let input = MyClassifierInput(input_image: cgImage)
        let output = try model.prediction(input: input)
        let probs = output.class_probabilities
        // probs — MLMultiArray, достать значение: probs[0].doubleValue
    } catch {
        print("Ошибка инференса: \(error)")
    }
}

Модель загружается ~100–300 мс (зависит от размера). Не загружайте её в viewDidLoad — только один раз при старте приложения или при первом использовании, держите в памяти пока нужна.

Почему on-device ML быстрее и безопаснее облачного?

On-device ML устраняет задержки сети, сохраняет приватность пользовательских данных и работает в офлайне. Вы не платите за серверные инференсы и не зависите от интернет-соединения. Для задач, где критична скорость ответа (например, обработка видео в реальном времени), устройство — единственный разумный вариант.

Критерий	Core ML	Облачный AI
Задержка	<10 мс	100–500 мс
Приватность	Данные на устройстве	Передача на сервер
Офлайн	Да	Нет
Стоимость	Нет затрат на инференс	Оплата за вызовы API

Производительность на реальных устройствах:

Устройство	Модель	computeUnits	Время инференса
iPhone 14 Pro	MobileNetV3 (5 МБ FP16)	.all (ANE)	2–4 мс
iPhone 14 Pro	ResNet-50 (48 МБ FP16)	.all (ANE)	8–15 мс
iPhone 12	BERT-base (350 МБ FP16)	.all	180–250 мс
iPhone SE 2nd gen	MobileNetV3 (5 МБ FP16)	.cpuOnly	12–20 мс

Для профилирования используйте Xcode Instruments → Core ML Instrument.

Vision Framework как обёртка

Для задач computer vision удобнее VNCoreMLRequest — Vision берёт на себя ресайзинг входа, ориентацию изображения, координатные преобразования:

let coreMLModel = try VNCoreMLModel(for: model.model)  // .model — MLModel из generated class

let request = VNCoreMLRequest(model: coreMLModel) { request, error in
    guard let results = request.results as? [VNClassificationObservation] else { return }
    let topResult = results.sorted { $0.confidence > $1.confidence }.first
    print("\(topResult?.identifier ?? "?") — \(topResult?.confidence ?? 0)")
}
request.imageCropAndScaleOption = .centerCrop  // или .scaleFit

let handler = VNImageRequestHandler(cgImage: inputCGImage, options: [:])
try handler.perform([request])

VNCoreMLRequest автоматически решает проблему несовпадения входного размера — передаёте произвольное изображение, Vision ресайзит до ожидаемого размера модели. Без Vision пришлось бы делать это вручную через vImage или CIImage.

Что входит в работу

Документация по конвертации и интеграции, включая описание всех шагов и используемых инструментов.
Доступ к репозиторию с исходным кодом конвертации и примерами интеграции.
Обучение команды заказчика работе с Core ML, профилированию и обновлению модели.
Поддержка в течение месяца после интеграции для решения возможных проблем.

Как обновить модель без обновления приложения?

Core ML поддерживает загрузку модели из произвольного URL, не только из bundle. Это позволяет обновлять модель через сервер:

// Загружаем mlpackage из документов-директории
let documentsURL = FileManager.default.urls(for: .documentDirectory, in: .userDomainMask)[0]
let downloadedModelURL = documentsURL.appendingPathComponent("updated_model.mlpackage")

if FileManager.default.fileExists(atPath: downloadedModelURL.path) {
    let model = try MyClassifier(contentsOf: downloadedModelURL, configuration: config)
} else {
    // Fallback на bundle
}

Загрузка модели по сети через URLSession, сохранение в Documents, верификация через SHA256-хэш перед использованием.

Наш подход: от анализа до деплоя

Анализ исходной модели (фреймворк, веса, структура).
Конвертация в Core ML с подбором precision и compute units.
Оптимизация для целевых устройств (профилирование на реальных девайсах).
Интеграция в приложение: загрузка, кеширование, fallback при ошибках.
Настройка удалённого обновления модели (опционально).
Документация и обучение команды.

Процесс работы:

Аналитика — получаем веса, оцениваем сложность, выбираем стратегию конвертации.
Конвертация — создаём .mlpackage, решаем проблемы с операциями и размерностями.
Профилирование — замеряем скорость и энергопотребление на iPhone нескольких поколений.
Интеграция — встраиваем в SwiftUI/UIKit, добавляем обработку ошибок.
Деплой — публикуем через App Store, настраиваем remote update.

Ориентиры по срокам

Конвертация существующей модели + базовая интеграция в iOS — 1–2 недели. Сложная модель с нестандартными операциями, несколькими входами/выходами, remote update — 3–5 недель. Стоимость рассчитывается индивидуально для каждого проекта. Оценим задачу за один рабочий день — просто пришлите веса и описание задачи.

Свяжитесь с нами для консультации по интеграции Core ML в ваш проект. Закажите предварительный анализ вашей модели — мы подберём оптимальное решение.

Подробнее о конвертации читайте в документации coremltools.

AI и ML в мобильных приложениях: CoreML, TFLite и on-device модели

Мы различаем два принципиально разных подхода: приложение с on-device AI и приложение, которое просто вызывает облачное API. Первое работает без интернета, не отправляет данные пользователя на сторонние серверы и отвечает за 50 миллисекунд. Второе зависит от задержки сети и тарифного плана. Выбор архитектуры — ключевой этап, который напрямую влияет на стоимость, приватность и пользовательский опыт. Наш опыт показывает: в 70% проектов on-device инференс оказывается дешевле в долгосрочной перспективе за счёт исключения серверных затрат.

Как выбрать между CoreML и TFLite для on-device инференса?

CoreML — нативный фреймворк Apple для запуска ML-моделей на устройстве. Поддерживает Neural Engine (начиная с A11 Bionic), GPU и CPU как fallback. Модели конвертируются в формат .mlmodel через coremltools из PyTorch, ONNX или TensorFlow. Конвертация — не всегда тривиальна: кастомные слои требуют реализации MLCustomLayer, а квантизация до INT8 иногда заметно роняет точность на специфических данных. Мы гарантируем, что итоговая модель проходит валидацию на реальных данных до и после конвертации.

TensorFlow Lite — кросс-платформенная альтернатива для Android и Flutter. На Android использует NNAPI (Neural Networks API) для хардварного ускорения — с Android 10 NNAPI стабильнее, до этого лучше явно использовать GPU delegate через GpuDelegate. Типичная ошибка: модель обучена на нормализованных данных в диапазоне [0,1], а в приложении на вход подаётся [0,255] — инференс работает, но с бессмысленными результатами без ошибки. Мы включаем модуль автоматической валидации входных данных в SDK.

Для задач классификации изображений, детекции объектов и сегментации доступны готовые оптимизированные модели. YOLOv8 в CoreML формате запускает детекцию кадра 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite с GPU delegate — около 8 мс на Pixel 7 при классификации.

Параметр	CoreML	TFLite
Платформы	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Хардварное ускорение	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Поддержка квантизации	FP16, INT8 (с coremltools)	FP16, INT8, dynamic range
Кастомные операции	Через MLCustomLayer (Swift)	Через делегаты (Java/Kotlin)
Размер бандла модели	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Что делать, если нужна генерация текста на устройстве?

Запуск небольших языковых моделей на устройстве стал реальностью в последние несколько лет. Apple Intelligence использует собственные модели через Private Cloud Compute, но для сторонних разработчиков доступны другие пути.

llama.cpp с Metal backend на iOS — работающий подход для phi-3-mini (3.8B параметров, 4-bit квантизация, ~2.3 ГБ). Инференс: 15–25 токенов/секунду на iPhone 15 Pro. Для интеграции в Swift используем Swift Package llama.swift или обёртку через C-интерфейс llama.h. Бинарник к приложению не прикладываем — модель скачивается при первом запуске и хранится в Application Support. Наши сертифицированные разработчики настраивают инкрементальную загрузку, чтобы не блокировать первый запуск.

На Android аналог — Google AI Edge (бывший MediaPipe LLM Inference API) с поддержкой Gemma-2B. Работает через GPU delegate, на Tensor G3 чипе Pixel 8 Pro — около 20 токенов/секунду.

Ограничения реальны: модели больше 4B параметров на мобильных устройствах по-прежнему медленны. Для сложных задач рассуждения on-device LLM уступает GPT-4o в качестве. Гибридный подход — on-device для коротких задач и приватных данных, облако для сложных запросов — часто оптимален. Оценим ваш кейс и предложим баланс производительности и приватности — пишите.

Интеграция OpenAI API и других облачных моделей

Для сценариев, где cloud inference допустим, интеграция OpenAI, Anthropic или Google Gemini — это HTTP клиент + streaming SSE. В Swift удобно через AsyncThrowingStream для стриминговых ответов. В Kotlin — через Flow.

Критически важно: API-ключи никогда не хранятся в бандле приложения. Даже обфусцированный ключ извлекается из IPA за 10 минут через strings или frida. Правильная архитектура: мобильное приложение → собственный backend → OpenAI API. Backend контролирует rate limiting, логирует запросы, защищает ключ.

Что входит в работу (deliverables)

Обученная и квантизированная модель под целевое устройство (документация по метрикам)
SDK для интеграции (Swift/Kotlin/Flutter) с примерами вызова
Тесты производительности на 3–5 реальных устройствах
Инструкция по обновлению модели OTA
Поддержка при прохождении модерации App Store / Google Play (проверка соответствия Guidelines 4.2, 5.1)
2 недели технической поддержки после релиза

Типичный пайплайн проекта

Анализ задачи — замеряем latency, privacy, size, поддерживаемые устройства.
Прототипирование модели — в Python, оценка accuracy на целевых данных.
Конвертация и квантизация — под CoreML/TFLite с валидацией.
Интеграция в приложение — модель оборачивается в сервисный слой (легко подменять CoreML → TFLite → облако).
Тестирование — на реальных девайсах, замер FPS, RAM, батареи.
Деплой — через TestFlight / Firebase App Distribution, мониторинг метрик.

Сроки: интеграция готовой CoreML/TFLite модели — 1–2 недели, разработка кастомной модели с мобильной оптимизацией — от 6 недель, on-device LLM чат с персонализацией — 4–8 недель.

Почему мы беремся за сложные кейсы?

10+ лет опыта в мобильной разработке, 50+ внедрённых AI/ML решений, гарантия совместимости с актуальными версиями iOS и Android. Все проекты проходят code review и нагрузочное тестирование. В стоимость уже входит подготовка документации для модерации и обучение вашей команды.

Свяжитесь с нами — мы поможем выбрать архитектуру и внедрить ML в ваше приложение под ключ. Закажите аудит существующего решения — бесплатно оценим потенциал экономии серверных затрат (в некоторых проектах экономия достигает $10k в месяц).