Які моделі підходять для PyTorch Mobile?

Більшість моделей, навчених на PyTorch, можна конвертувати. Обмеження: не підтримуються всі операції (наприклад, torch.einsum може бути відсутнім), а також моделі, що використовують CUDA. Рекомендуємо попередньо протестувати граф.

Що таке квантизація INT8 і навіщо вона потрібна?

Квантизація INT8 — це зниження точності ваг з 32-бітних чисел з плаваючою комою до 8-бітних цілих. Вона зменшує розмір моделі в 4 рази і пришвидшує інференс у 2-3 рази на ARM-процесорах.

Як інтегрувати PyTorch Mobile на iOS?

Додайте CocoaPod LibTorch-Lite, завантажте модель у форматі .ptl, використовуйте TorchModule для інференсу. Весь процес має виконуватися у фоновому потоці.

Скільки часу займає інтеграція?

Зазвичай 1-2 тижні, включаючи конвертацію, оптимізацію, інтеграцію та тестування на пристроях. Термін може збільшитися, якщо модель потребує доопрацювання.

Які моделі підходять для PyTorch Mobile?

Більшість моделей, навчених на PyTorch, можна конвертувати. Обмеження: не підтримуються всі операції (наприклад, torch.einsum може бути відсутнім), а також моделі, що використовують CUDA. Рекомендуємо попередньо протестувати граф.

Що таке квантизація INT8 і навіщо вона потрібна?

Квантизація INT8 — це зниження точності ваг з 32-бітних чисел з плаваючою комою до 8-бітних цілих. Вона зменшує розмір моделі в 4 рази і пришвидшує інференс у 2-3 рази на ARM-процесорах.

Як інтегрувати PyTorch Mobile на iOS?

Додайте CocoaPod LibTorch-Lite, завантажте модель у форматі .ptl, використовуйте TorchModule для інференсу. Весь процес має виконуватися у фоновому потоці.

Скільки часу займає інтеграція?

Зазвичай 1-2 тижні, включаючи конвертацію, оптимізацію, інтеграцію та тестування на пристроях. Термін може збільшитися, якщо модель потребує доопрацювання.

Розробка ML на PyTorch Mobile: інтеграція, оптимізація, інференс

Q: Як конвертувати модель у TorchScript?

Використовуйте torch.jit.script або torch.jit.trace. Різниця: script підходить для моделей з умовними операторами, trace — для детермінованих графів. Після конвертації застосуйте optimize_for_mobile для зменшення розміру.

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми

Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори

Мобільні програми електронної комерції

Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи

Мобільні програми для управління бізнес-процесами

CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних

Мобільні програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1734 послуг

Розробка ML на PyTorch Mobile: інтеграція, оптимізація, інференс

Складний

~1-2 тижні

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка мобільного додатка для компанії FEEDME
858
Розробка мобільного додатку для компанії XOOMER
743
Розробка мобільного додатку для компанії RHL
1160
Розробка мобільного додатку для компанії ZIPPY
1034
Розробка мобільного додатку для компанії Affhome
968
Розробка мобільного додатку для компанії FLAVORS
562

Показати більше робіт

Розробка машинного навчання (PyTorch Mobile) у мобільному застосунку

Команда data science навчила модель на PyTorch, а тепер потрібно запустити її на мобільному пристрої. Конвертація в TFLite або Core ML вимагає переписування частини графа — часу немає, та й нестандартні операції не підтримуються. Ми допомагаємо переносити PyTorch-моделі на iOS та Android через PyTorch Mobile, зберігаючи точність і продуктивність. Наш досвід — 30+ проєктів з ML на мобільних пристроях, включаючи NLP, CV та рекомендаційні системи. Гарантуємо сумісність моделі з цільовими пристроями. Перехід на on-device інференс знижує витрати на хмарне ШІ до 70%.

PyTorch Mobile — менш поширений вибір порівняно з TFLite та Core ML, але в низці задач він виграє. Передусім там, де команда data science працює на PyTorch і не хоче витрачати час на конвертацію в інший формат. Або коли потрібна модель з нестандартними операціями, які TFLite не підтримує. Крім того, PyTorch Mobile надає єдиний API для обох платформ, що спрощує підтримку. PyTorch Mobile також підтримує квантизацію через qnnpack, що дає приріст продуктивності в 2-3 рази на операціях згортки.

Чому PyTorch Mobile, а не TFLite?

Якщо ваша модель використовує нестандартні шари (наприклад, custom attention), TFLite вимагатиме написання операторів на C++ — це тижні роботи. PyTorch Mobile приймає TorchScript безпосередньо, і багато операцій уже вбудовані. Порівняння: для BERT-lite конвертація через ONNX в TFLite зайняла б 2 дні, а через TorchScript — 3 години. PyTorch Mobile кращий для швидкого прототипування та моделей з унікальною архітектурою.

У цій статті ми розберемо, як конвертувати модель у TorchScript, оптимізувати її під мобільний пристрій за допомогою optimize_for_mobile, виконати квантизацію INT8 для пришвидшення, та інтегрувати в застосунки на iOS та Android з використанням Lite Interpreter. Також покажемо реальний кейс з BERT-lite, де розмір моделі скоротився з 23 МБ до 6 МБ, а час інференсу на Pixel 6 становив 45 мс на 128 токенів. Цей підхід дозволяє використовувати потужні моделі на мобільних пристроях без шкоди для користувацького досвіду.

TorchScript: головна вимога для PyTorch Mobile

PyTorch Mobile працює тільки з TorchScript-моделями — ні eager mode, ні torch.fx не підходять. Конвертація через torch.jit.trace або torch.jit.script. Різниця принципова: trace записує шлях виконання для конкретних входів і не вміє обробляти розгалуження залежно від даних. script аналізує граф статично і коректно обробляє if/for, але вимагає анотацій типів. Якщо модель містить if x.shape[0] > 1: — trace мовчки запише лише одну гілку. У продакшні це проявляється як неправильні результати на батчах певного розміру, а не як краш — зловити складно.

Після конвертації — оптимізація через optimize_for_mobile:

from torch.utils.mobile_optimizer import optimize_for_mobile
scripted = torch.jit.script(model)
optimized = optimize_for_mobile(scripted)
optimized._save_for_lite_interpreter("model.ptl")

.ptl (Lite Interpreter format) — це не те саме, що .pt. На мобілі використовується саме Lite Interpreter — він не підтримує всі PyTorch операції, зате має менший бінарний розмір.

Як правильно конвертувати модель у TorchScript?

Вибір між trace і script залежить від динаміки моделі. Для моделей з умовними операторами script — єдиний варіант. Ми рекомендуємо писати тести після конвертації: проганяємо модель на синтетичних даних і порівнюємо виходи до та після. Якщо розбіжність >1% — шукаємо проблемний вузол. Це гарантує, що на мобілі модель працюватиме так само, як на сервері.

Квантизація та продуктивність

Post-training static quantization для мобіля:

model.qconfig = torch.quantization.get_default_qconfig('qnnpack')  # для ARM
torch.quantization.prepare(model, inplace=True)
# прогін калібрувального датасету
torch.quantization.convert(model, inplace=True)

qnnpack — бекенд для ARM-процесорів (те, що потрібно для Android та iOS). fbgemm — для x86, на мобілі не працює. Це часта помилка: розробник квантизує з fbgemm на ноутбуці, дивується, чому модель не пришвидшується на телефоні.

Чому квантизація з qnnpack, а не fbgemm?

Тому що мобільні процесори ARM використовують інструкції NEON. qnnpack оптимізований під них, fbgemm — під AVX2 на x86. Вибір неправильного бекенду призводить до нульового пришвидшення. На практиці приріст від INT8 на ARM: 2–3x на операціях типу Linear та Conv2d. На iPhone з Neural Engine PyTorch Mobile не задіює його напряму — на відміну від Core ML. Якщо потрібен Neural Engine на iOS, правильний шлях — конвертація через coremltools, а не PyTorch Mobile.

Інтеграція на Android та iOS

Android. Залежність org.pytorch:pytorch_android_lite (Lite Interpreter). Інференс:

val module = LiteModuleLoader.load(assetFilePath("model.ptl"))
val inputTensor = TensorImageUtils.bitmapToFloat32Tensor(bitmap, mean, std)
val output = module.forward(IValue.from(inputTensor)).toTensor()

Попередню обробку зображення (нормалізація, ресайз) винести в Executors.newSingleThreadExecutor() — не на main thread.

iOS. CocoaPod LibTorch-Lite. Робота через TorchModule:

let module = TorchModule(fileAtPath: modelPath)
let result = module.predict(image: &tensorData)

Весь інференс — у DispatchQueue.global(qos: .userInitiated).

Приклад: NLP-задача, BERT-lite для класифікації відгуків всередині корпоративного застосунку. Команда DS працювала на PyTorch, переконвертувати в TFLite не хотіли (нестандартний attention block). Використали TorchScript + INT8 quantization (qnnpack), розмір моделі 23 MB → 6 MB, інференс на Pixel 6 — 45 ms на 128 токенів. Достатньо для realtime-аналітики.

Параметр	PyTorch Mobile	TFLite	Core ML
Підтримка нестандартних операцій	Так, якщо є реалізація	Обмежено	Обмежено
Розмір бінарної бібліотеки	~3 МБ (lite)	~1.5 МБ	~2 МБ
Пришвидшення Neural Engine	Ні	Так (Android NN API)	Так (ANE)
Конвертація з PyTorch	Нативна TorchScript	Через ONNX	Через coremltools

Пристрій	Час інференсу FP32	Час інференсу INT8	Пришвидшення
iPhone 12	120 мс	45 мс	2.7x
Pixel 6	140 мс	50 мс	2.8x
Samsung S21	130 мс	48 мс	2.7x

Як ми працюємо: від аналізу до деплою

Аналіз моделі — оцінюємо граф, операції, розмір. Виявляємо проблемні вузли для TorchScript.
Конвертація та оптимізація — пишемо скрипт конвертації, тестуємо на десктопі, потім оптимізуємо optimize_for_mobile та квантизуємо.
Інтеграція в застосунок — підключаємо Lite Interpreter, пишемо обгортку для інференсу на головному потоці не блокуючи UI.
Тестування на пристроях — перевіряємо коректність виходів (порівняння з оригінальною моделлю), заміряємо продуктивність, температуру, споживання пам'яті.
Деплой та моніторинг — завантажуємо в App Store / Google Play, використовуємо Firebase для збору метрик. При оновленні моделі — тільки заміна model.ptl.

Що входить в роботу

Повна документація з конвертації та інтеграції (включаючи troubleshooting).
Вихідний код інтеграції для iOS (Swift) та Android (Kotlin).
Інструкція з оновлення моделі без перескладання застосунку.
Підтримка при релізі в стор (вирішення проблем з рев'ю, якщо модель порушує правила).
Гарантія сумісності з iOS 15+ та Android 12+.

Терміни та вартість

Конвертація та інтеграція готової PyTorch-моделі в Android або iOS — 1–2 тижні з урахуванням налагодження TorchScript та тестування на пристроях. Вартість розраховується індивідуально. Зв'яжіться з нами для оцінки вашого проєкту — надішлемо приблизний час та бюджет.

Типові помилки при інтеграції PyTorch Mobile

Використання fbgemm для квантизації замість qnnpack.
Забули зберегти модель у форматі Lite Interpreter (.ptl).
Інференс на головному потоці — призводить до зависання UI.
Не перевірили, що модель не використовує непідтримувані операції (наприклад, torch.einsum може бути відсутнім).
Не врахували розмір моделі при завантаженні — великі моделі (>50 МБ) можуть вивантажуватися з пам'яті.

Ми займаємося мобільною розробкою з моменту виходу PyTorch Mobile і реалізували 30+ проєктів з інтеграцією ML. Досвід роботи — понад 5 років. Гарантуємо сумісність моделі з цільовими пристроями.

Хочете перенести модель на мобільний пристрій? Отримайте консультацію — оцінимо терміни та складність безкоштовно.

Машинне навчання в мобільних застосунках: CoreML, TFLite та on-device LLM

Ми розрізняємо два принципово різних підходи: застосунок з on-device AI та застосунок, який просто викликає хмарне API. Перший працює без інтернету, не надсилає дані користувача на сторонні сервери та відповідає за 50 мілісекунд. Другий залежить від затримки мережі та тарифного плану. Вибір архітектури — ключовий етап, який безпосередньо впливає на вартість, приватність та користувацький досвід. Наш досвід показує: у 70% проектів on-device інференс виявляється дешевшим у довгостроковій перспективі завдяки виключенню серверних витрат. Економія може сягати 40% щомісячних витрат — отримайте консультацію, ми порахуємо для вашого кейсу.

Як вибрати між CoreML та TFLite для on-device інференсу?

CoreML — нативний фреймворк Apple для запуску ML-моделей на пристрої, описаний у документації Apple. Підтримує Neural Engine (A11 Bionic та новіші), GPU та CPU як fallback. Моделі конвертуються у формат .mlmodel через coremltools з PyTorch, ONNX або TensorFlow. Конвертація — не завжди тривіальна: кастомні шари вимагають реалізації MLCustomLayer, а квантизація до INT8 іноді помітно знижує точність на специфічних даних. Ми гарантуємо, що підсумкова модель проходить валідацію на реальних даних до та після конвертації.

TensorFlow Lite — крос-платформна альтернатива для Android та Flutter відповідно до специфікації Google. На Android використовує NNAPI (Neural Networks API) для апаратного прискорення — з Android 10+ NNAPI стабільніший, до цього краще явно використовувати GPU delegate через GpuDelegate. Типова помилка: модель навчена на нормалізованих даних у діапазоні [0,1], а в застосунку на вхід подається [0,255] — інференс працює, але з безглуздими результатами без помилки. Ми включаємо модуль автоматичної валідації вхідних даних у SDK.

Для задач класифікації зображень, детекції об'єктів та сегментації доступні готові оптимізовані моделі. YOLOv8 у CoreML форматі запускає детекцію кадру 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite з GPU delegate — близько 8 мс на Pixel 7 при класифікації.

Параметр	CoreML	TFLite
Платформи	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Апаратне прискорення	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Підтримка квантизації	FP16, INT8 (з coremltools)	FP16, INT8, dynamic range
Кастомні операції	Через MLCustomLayer (Swift)	Через делегати (Java/Kotlin)
Розмір бандла моделі	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Що робити, якщо потрібна генерація тексту на пристрої?

Запуск невеликих мовних моделей на пристрої став реальністю за останні роки. Apple Intelligence використовує власні моделі через Private Cloud Compute, але для сторонніх розробників доступні інші шляхи.

llama.cpp з Metal backend на iOS — робочий підхід для phi-3-mini (3.8B параметрів, 4-bit квантизація, ~2.3 ГБ). Інференс: 15–25 токенів/секунду на iPhone 15 Pro. Для інтеграції в Swift використовуємо Swift Package llama.swift або обгортку через C-інтерфейс llama.h. Бінарник до застосунку не додаємо — модель завантажується при першому запуску та зберігається в Application Support. Наші сертифіковані розробники налаштовують інкрементальне завантаження, щоб не блокувати перший запуск.

На Android аналог — Google AI Edge (колишній MediaPipe LLM Inference API) з підтримкою Gemma-2B. Працює через GPU delegate, на Tensor G3 чіпі Pixel 8 Pro — близько 20 токенів/секунду.

Порівняння LLM моделей для on-device

Модель	Параметри	Квантизація	Розмір	Швидкість (iPhone 15 Pro)
Phi-3-mini (Microsoft)	3.8B	4-bit	~2.3 ГБ	15-25 токенів/с
Gemma-2B (Google)	2B	4-bit	~1.2 ГБ	30-40 токенів/с
TinyLlama	1.1B	4-bit	~0.7 ГБ	60+ токенів/с

Обмеження реальні: моделі більше 4B параметрів на мобільних пристроях все ще повільні. Для складних задач міркування on-device LLM поступається GPT-4o за якістю. Гібридний підхід — on-device для коротких завдань та приватних даних, хмара для складних запитів — часто оптимальний. Оцінимо ваш кейс та запропонуємо баланс продуктивності та приватності — напишіть нам.

Інтеграція OpenAI API та інших хмарних моделей

Для сценаріїв, де cloud inference допустимий, інтеграція OpenAI, Anthropic або Google Gemini — це HTTP клієнт + streaming SSE. У Swift зручно через AsyncThrowingStream для стрімінгових відповідей. У Kotlin — через Flow.

Критично важливо: API-ключі ніколи не зберігаються в бандлі застосунку. Навіть обфускований ключ витягується з IPA за 10 хвилин через strings або frida. Правильна архітектура: мобільний застосунок → власний backend → OpenAI API. Backend контролює rate limiting, логує запити, захищає ключ.

Що входить у роботу (результати)

Навчена та квантизована модель під цільовий пристрій (документація за метриками)
SDK для інтеграції (Swift/Kotlin/Flutter) з прикладами виклику
Тести продуктивності на 3–5 реальних пристроях
Інструкція з оновлення моделі OTA
Підтримка при проходженні модерації App Store / Google Play (перевірка відповідності Guidelines 4.2, 5.1)
2 тижні технічної підтримки після релізу

Типовий пайплайн проекту

Аналіз завдання — вимірюємо latency, privacy, size, підтримувані пристрої.
Прототипування моделі — в Python, оцінка accuracy на цільових даних.
Конвертація та квантизація — під CoreML/TFLite з валідацією.
Інтеграція в застосунок — модель обгортається в сервісний шар (легко замінювати CoreML → TFLite → хмара).
Тестування — на реальних пристроях, вимір FPS, RAM, батареї.
Деплой — через TestFlight / Firebase App Distribution, моніторинг метрик.

Терміни: інтеграція готової CoreML/TFLite моделі — 1–2 тижні, розробка кастомної моделі з мобільною оптимізацією — від 6 тижнів, on-device LLM чат з персоналізацією — 4–8 тижнів.

Чому ми беремося за складні кейси?

10+ років досвіду в мобільній розробці, 50+ впроваджених AI/ML рішень, гарантія сумісності з актуальними версіями iOS та Android. Всі проекти проходять code review та навантажувальне тестування. У вартість вже входить підготовка документації для модерації та навчання вашої команди.

Зв'яжіться з нами — ми допоможемо вибрати архітектуру та впровадити ML у ваш застосунок під ключ. Замовте аудит наявного рішення — безкоштовно оцінимо потенціал економії серверних витрат. Отримайте консультацію експерта — напишіть нам сьогодні.