Як безпечно зберігати API-ключ Claude у мобільному додатку?

Ключ ніколи не повинен потрапляти в клієнтський додаток. Використовуйте власний backend-proxy, який додає заголовок x-api-key. На мобільному клієнті застосовуйте JWT-аутентифікацію, а proxy перевіряє токен і застосовує rate limiting (наприклад, 20 запитів/хвилину на користувача).

Як реалізувати streaming у мобільному додатку з Claude?

Claude підтримує SSE-streaming при встановленні stream: true. На iOS парсимо через URLSessionDataDelegate, на Android — через OkHttp EventSource. Для плавного оновлення UI буферизуємо токени: на iOS використовуємо Throttle publisher, на Android — debounce з distinctUntilChanged.

Чи можна аналізувати зображення через Claude API?

Так, Claude 3+ підтримує vision — зображення передаються у content блоках з типом image. На мобільному обов'язково стискайте JPEG до якості 70 і розміру не більше 1568×1568 пікселів. Використовуйте UIGraphicsImageRenderer на iOS або Bitmap.createScaledBitmap на Android.

Як обробляти помилки Anthropic API в продакшні?

Ключові помилки: 529 Overloaded — застосувати експоненційний backoff; 400 з invalid_request_error — найчастіше перевищено max_tokens; 401 — невірний ключ на proxy. Всі помилки логуйте з x-request-id для звернення в підтримку Anthropic.

Як безпечно зберігати API-ключ Claude у мобільному додатку?

Ключ ніколи не повинен потрапляти в клієнтський додаток. Використовуйте власний backend-proxy, який додає заголовок x-api-key. На мобільному клієнті застосовуйте JWT-аутентифікацію, а proxy перевіряє токен і застосовує rate limiting (наприклад, 20 запитів/хвилину на користувача).

Як реалізувати streaming у мобільному додатку з Claude?

Claude підтримує SSE-streaming при встановленні stream: true. На iOS парсимо через URLSessionDataDelegate, на Android — через OkHttp EventSource. Для плавного оновлення UI буферизуємо токени: на iOS використовуємо Throttle publisher, на Android — debounce з distinctUntilChanged.

Чи можна аналізувати зображення через Claude API?

Так, Claude 3+ підтримує vision — зображення передаються у content блоках з типом image. На мобільному обов'язково стискайте JPEG до якості 70 і розміру не більше 1568×1568 пікселів. Використовуйте UIGraphicsImageRenderer на iOS або Bitmap.createScaledBitmap на Android.

Як обробляти помилки Anthropic API в продакшні?

Ключові помилки: 529 Overloaded — застосувати експоненційний backoff; 400 з invalid_request_error — найчастіше перевищено max_tokens; 401 — невірний ключ на proxy. Всі помилки логуйте з x-request-id для звернення в підтримку Anthropic.

Інтеграція Claude API в мобільний додаток під ключ

Q: Чим Messages API відрізняється від OpenAI Chat Completions?

Основні відмінності: системний промпт передається окремим полем system, а не елементом messages; у messages дозволені лише ролі user та assistant; немає function calling, натомість — tools з input_schema в JSON Schema. Це важливо враховувати при міграції.

TRUETECH займається розробкою, підтримкою та обслуговуванням мобільних додатків iOS, Android, PWA. Маємо великий досвід та експертизу для публікації мобільних додатків до популярних маркетів Google Play, App Store, Amazon, AppGallery та інші.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Розробка та підтримка будь-яких видів мобільних додатків:

Інформаційні та розважальні мобільні програми

Новинки, ігри, довідники, онлайн-каталоги, погодні, фітнес та здоров'я, туристичні, освітні, соціальні мережі та месенджери, квіз, блоги та подкасти, форуми, агрегатори

Мобільні програми електронної комерції

Інтернет-магазини, B2B-додатки, маркетплейси, онлайн-обмінники, кешбек-сервіси, біржі, дропшиппінг-платформи, програми лояльності, доставка їжі та товарів, платіжні системи

Мобільні програми для управління бізнес-процесами

CRM-системи, ERP-системи, управління проектами, інструменти для команди продажів, облік фінансів, управління виробництвом, логістика та доставка, управління персоналом, системи моніторингу даних

Мобільні програми електронних послуг

Дошки оголошень, онлайн-школи, онлайн-кінотеатри, платформи надання електронних послуг, платформи кешбеку, відеохостинги, тематичні портали, платформи онлайн-бронювання та запису, платформи онлайн-торгівлі

Це лише деякі з типів мобільних додатків, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1734 послуг

Інтеграція Claude API в мобільний додаток під ключ

Середній

~3-5 днів

Часті запитання

Наші компетенції:

Безкоштовна консультація

Замовте безкоштовну консультацію, якщо у вас є питання. Профільний спеціаліст вас проконсультує.

Розрахунок вартості

Якщо ви знаєте, що вам потрібно розробити, або у вас вже є готове технічне завдання.

Етапи розробки

Останні роботи

Розробка мобільного додатка для компанії FEEDME
858
Розробка мобільного додатку для компанії XOOMER
743
Розробка мобільного додатку для компанії RHL
1160
Розробка мобільного додатку для компанії ZIPPY
1034
Розробка мобільного додатку для компанії Affhome
968
Розробка мобільного додатку для компанії FLAVORS
562

Показати більше робіт

Інтеграція Claude API в мобільний додаток

Типова ситуація: ви розробляєте мобільний чат-асистент на Swift або Kotlin і вибираєте між OpenAI та Anthropic. Claude API від Anthropic дає контекст до 200k токенів (claude-3-5-sonnet), нативну підтримку vision та відмінну якість російської мови. Ми підключаємо Claude до вашого додатку під ключ: від архітектури backend-proxy до фінального тестування streaming. Наш досвід — понад 30 проєктів з AI-інтеграціями, що дозволяє скоротити час виведення на ринок у 2-3 рази порівняно з самостійною розробкою.

Безпечна робота з ключами

Anthropic API key (sk-ant-...) категорично заборонено зберігати на клієнті. Правило одне: ключ тільки на backend. Мобільний клієнт спілкується з вашим proxy-сервером, який додає заголовок x-api-key і передає запит в api.anthropic.com. Архітектура proxy: будь-який backend — Laravel, FastAPI, Cloudflare Worker. Мінімальна реалізація на Cloudflare Worker займає ~30 рядків і обробляє як звичайні запити, так і streaming. Холодний старт Workers — 5–10 ms, latency непомітна.

На стороні мобільного клієнта: JWT-аутентифікація користувача на proxy. Proxy перевіряє токен, застосовує rate limiting (наприклад, 20 запитів/хвилину на користувача) і логує input_tokens/output_tokens для аналітики витрат. Ми гарантуємо, що ключ не покине backend.

Чому Messages API відрізняється від OpenAI?

Anthropic Messages API відрізняється від OpenAI Chat Completions кількома деталями:

Системний промпт — окреме поле system, не елемент масиву messages. Правильніше тримати системний контекст у system, а не в messages[0] з role: "system".
Ролі: тільки user та assistant (немає system у messages).
Немає function_calling — є tools з input_schema у форматі JSON Schema.

{
  "model": "claude-haiku-4-5",
  "max_tokens": 1024,
  "system": "Ти помічник у мобільному додатку ...",
  "messages": [
    {"role": "user", "content": "Поясни цей документ"},
    {"role": "assistant", "content": "Звісно, ..."},
    {"role": "user", "content": "А що означає пункт 3?"}
  ]
}

Streaming на мобільному: як прискорити відповідь

Claude API підтримує SSE-streaming з stream: true. Формат трохи відрізняється від OpenAI: подія content_block_delta несе delta.text — це токен; message_stop — кінець потоку. На iOS парсимо через URLSessionDataDelegate, на Android — OkHttp EventSource. Дельта-події приходять кожні 10–50 ms при активній генерації. Буферизуємо перед оновленням UI: оновлюємо @Published var streamText не при кожній події, а через Throttle publisher (iOS) або distinctUntilChanged + debounce (Android Flow).

Порівняння streaming Claude vs OpenAI:

Параметр	Claude (SSE)	OpenAI (SSE)
Формат подій	content_block_delta / message_stop	choices[i].delta.content / finish_reason
Затримка першого токена	~350 мс (середня)	~300 мс
Підтримка vision у streaming	Так	Так (але через gpt-4-vision)
Буферизація на клієнті	Throttle / debounce	Аналогічно

Як аналізувати зображення через Claude на мобільному?

Claude 3+ нативно підтримує зображення у messages. Формат:

{
  "role": "user",
  "content": [
    {
      "type": "image",
      "source": {
        "type": "base64",
        "media_type": "image/jpeg",
        "data": "<base64>"
      }
    },
    {"type": "text", "text": "Що зображено на фото?"}
  ]
}

На мобільному: стискаємо зображення перед відправленням. JPEG якість 70, максимальний розмір 1568×1568 (обмеження API). Resize + compress через UIGraphicsImageRenderer (iOS) або Bitmap.createScaledBitmap + compress (Android). Економія токенів у 5–10 разів порівняно з відправленням RAW.

Управління діалогом та RAG

Claude тримає 200k токенів, але для мобільного чату це overkill і дорого. На практиці — ковзне вікно останніх 20 повідомлень достатньо. Для спеціалізованих додатків (юридичний асистент, медичний довідник) — RAG (Retrieval Augmented Generation): зберігаємо документи у векторній БД на backend, при кожному запиті доповнюємо system промпт релевантними фрагментами. Не збільшує розмір історії, але дає доступ до великої бази знань. Детальніше про RAG у документації Anthropic.

Обробка помилок Anthropic API

529 Overloaded — сервери перевантажені, застосовуємо експоненційний backoff. 400 з error.type = "invalid_request_error" — зазвичай перевищено max_tokens або невірний формат content. 401 — невірний ключ на proxy. Всі помилки логуємо з request ID (x-request-id) — потрібен для звернення в підтримку Anthropic.

Кейс: юридичний асистент для B2B-додатку. Використали claude-3-5-sonnet, аналіз договорів. Користувач фотографує сторінку договору, асистент виділяє ключові умови та ризики. Зображення resize до 1200px по довгій стороні, JPEG 80. Середній запит: 2400 input tokens (зображення ~1800 + текст 600) + 800 output. Streaming — перші слова з'являються через 350 ms. Користувачі не помічають затримку при streaming порівняно з «порожнім екраном 4 секунди» без нього.

Порівняння моделей Claude

Модель	Швидкість	Контекст	Вартість за 1M токенів (input/output)
Claude Haiku	Швидка	200k	$0.25 / $1.25
Claude Sonnet	Середня	200k	$3.00 / $15.00
Claude Opus	Повільна	200k	$15.00 / $75.00

Вибір моделі залежить від сценарію: для простого чату Haiku, для складного аналізу — Sonnet або Opus. Ми допоможемо підібрати оптимальну модель та налаштувати fallback для зниження витрат.

Що входить у роботу

Архітектура backend-proxy (Cloudflare Worker / Laravel / FastAPI)
Інтеграція Messages API з streaming та vision
Управління діалогами (ковзне вікно, RAG при необхідності)
Логування токенів та обробка помилок
Документація з розгортання та підтримки
Тестування з TestFlight / Firebase App Distribution

Терміни та вартість

Базова інтеграція з streaming, контекстом діалогу та backend-proxy — 3–5 робочих днів. З підтримкою зображень та RAG — 1–2 тижні. Вартість розраховується індивідуально. Зв'яжіться з нами для оцінки вашого проєкту — ми підготуємо пропозицію протягом дня. Також ви можете замовити консультацію з архітектури — її вартість спишеться з основного проєкту.

Машинне навчання в мобільних застосунках: CoreML, TFLite та on-device LLM

Ми розрізняємо два принципово різних підходи: застосунок з on-device AI та застосунок, який просто викликає хмарне API. Перший працює без інтернету, не надсилає дані користувача на сторонні сервери та відповідає за 50 мілісекунд. Другий залежить від затримки мережі та тарифного плану. Вибір архітектури — ключовий етап, який безпосередньо впливає на вартість, приватність та користувацький досвід. Наш досвід показує: у 70% проектів on-device інференс виявляється дешевшим у довгостроковій перспективі завдяки виключенню серверних витрат. Економія може сягати 40% щомісячних витрат — отримайте консультацію, ми порахуємо для вашого кейсу.

Як вибрати між CoreML та TFLite для on-device інференсу?

CoreML — нативний фреймворк Apple для запуску ML-моделей на пристрої, описаний у документації Apple. Підтримує Neural Engine (A11 Bionic та новіші), GPU та CPU як fallback. Моделі конвертуються у формат .mlmodel через coremltools з PyTorch, ONNX або TensorFlow. Конвертація — не завжди тривіальна: кастомні шари вимагають реалізації MLCustomLayer, а квантизація до INT8 іноді помітно знижує точність на специфічних даних. Ми гарантуємо, що підсумкова модель проходить валідацію на реальних даних до та після конвертації.

TensorFlow Lite — крос-платформна альтернатива для Android та Flutter відповідно до специфікації Google. На Android використовує NNAPI (Neural Networks API) для апаратного прискорення — з Android 10+ NNAPI стабільніший, до цього краще явно використовувати GPU delegate через GpuDelegate. Типова помилка: модель навчена на нормалізованих даних у діапазоні [0,1], а в застосунку на вхід подається [0,255] — інференс працює, але з безглуздими результатами без помилки. Ми включаємо модуль автоматичної валідації вхідних даних у SDK.

Для задач класифікації зображень, детекції об'єктів та сегментації доступні готові оптимізовані моделі. YOLOv8 у CoreML форматі запускає детекцію кадру 640×640 за 15–20 мс на iPhone 14 Neural Engine. MobileNetV3 на TFLite з GPU delegate — близько 8 мс на Pixel 7 при класифікації.

Параметр	CoreML	TFLite
Платформи	iOS, macOS, watchOS	Android, iOS, Linux, embedded
Апаратне прискорення	Neural Engine, GPU, CPU	NNAPI, GPU (OpenCL/OpenGL), CPU
Підтримка квантизації	FP16, INT8 (з coremltools)	FP16, INT8, dynamic range
Кастомні операції	Через MLCustomLayer (Swift)	Через делегати (Java/Kotlin)
Розмір бандла моделі	~3–5 МБ (MobileNetV2 quantized)	~2–4 МБ

Що робити, якщо потрібна генерація тексту на пристрої?

Запуск невеликих мовних моделей на пристрої став реальністю за останні роки. Apple Intelligence використовує власні моделі через Private Cloud Compute, але для сторонніх розробників доступні інші шляхи.

llama.cpp з Metal backend на iOS — робочий підхід для phi-3-mini (3.8B параметрів, 4-bit квантизація, ~2.3 ГБ). Інференс: 15–25 токенів/секунду на iPhone 15 Pro. Для інтеграції в Swift використовуємо Swift Package llama.swift або обгортку через C-інтерфейс llama.h. Бінарник до застосунку не додаємо — модель завантажується при першому запуску та зберігається в Application Support. Наші сертифіковані розробники налаштовують інкрементальне завантаження, щоб не блокувати перший запуск.

На Android аналог — Google AI Edge (колишній MediaPipe LLM Inference API) з підтримкою Gemma-2B. Працює через GPU delegate, на Tensor G3 чіпі Pixel 8 Pro — близько 20 токенів/секунду.

Порівняння LLM моделей для on-device

Модель	Параметри	Квантизація	Розмір	Швидкість (iPhone 15 Pro)
Phi-3-mini (Microsoft)	3.8B	4-bit	~2.3 ГБ	15-25 токенів/с
Gemma-2B (Google)	2B	4-bit	~1.2 ГБ	30-40 токенів/с
TinyLlama	1.1B	4-bit	~0.7 ГБ	60+ токенів/с

Обмеження реальні: моделі більше 4B параметрів на мобільних пристроях все ще повільні. Для складних задач міркування on-device LLM поступається GPT-4o за якістю. Гібридний підхід — on-device для коротких завдань та приватних даних, хмара для складних запитів — часто оптимальний. Оцінимо ваш кейс та запропонуємо баланс продуктивності та приватності — напишіть нам.

Інтеграція OpenAI API та інших хмарних моделей

Для сценаріїв, де cloud inference допустимий, інтеграція OpenAI, Anthropic або Google Gemini — це HTTP клієнт + streaming SSE. У Swift зручно через AsyncThrowingStream для стрімінгових відповідей. У Kotlin — через Flow.

Критично важливо: API-ключі ніколи не зберігаються в бандлі застосунку. Навіть обфускований ключ витягується з IPA за 10 хвилин через strings або frida. Правильна архітектура: мобільний застосунок → власний backend → OpenAI API. Backend контролює rate limiting, логує запити, захищає ключ.

Що входить у роботу (результати)

Навчена та квантизована модель під цільовий пристрій (документація за метриками)
SDK для інтеграції (Swift/Kotlin/Flutter) з прикладами виклику
Тести продуктивності на 3–5 реальних пристроях
Інструкція з оновлення моделі OTA
Підтримка при проходженні модерації App Store / Google Play (перевірка відповідності Guidelines 4.2, 5.1)
2 тижні технічної підтримки після релізу

Типовий пайплайн проекту

Аналіз завдання — вимірюємо latency, privacy, size, підтримувані пристрої.
Прототипування моделі — в Python, оцінка accuracy на цільових даних.
Конвертація та квантизація — під CoreML/TFLite з валідацією.
Інтеграція в застосунок — модель обгортається в сервісний шар (легко замінювати CoreML → TFLite → хмара).
Тестування — на реальних пристроях, вимір FPS, RAM, батареї.
Деплой — через TestFlight / Firebase App Distribution, моніторинг метрик.

Терміни: інтеграція готової CoreML/TFLite моделі — 1–2 тижні, розробка кастомної моделі з мобільною оптимізацією — від 6 тижнів, on-device LLM чат з персоналізацією — 4–8 тижнів.

Чому ми беремося за складні кейси?

10+ років досвіду в мобільній розробці, 50+ впроваджених AI/ML рішень, гарантія сумісності з актуальними версіями iOS та Android. Всі проекти проходять code review та навантажувальне тестування. У вартість вже входить підготовка документації для модерації та навчання вашої команди.

Зв'яжіться з нами — ми допоможемо вибрати архітектуру та впровадити ML у ваш застосунок під ключ. Замовте аудит наявного рішення — безкоштовно оцінимо потенціал економії серверних витрат. Отримайте консультацію експерта — напишіть нам сьогодні.