Разработка AI-ассистента в мобильном приложении на базе GPT-4/GPT-4o
GPT-4o — мультимодальная модель: принимает текст, изображения и аудио в одном API-вызове. Это меняет архитектуру ассистента по сравнению с GPT-4-turbo: вместо отдельных пайплайнов для OCR + текст + голос — один эндпоинт gpt-4o с content типа array. Мобильное приложение, которое не использует эту возможность, теряет половину ценности модели.
Интеграция OpenAI API: что реально важно
Базовый вызов — через POST /v1/chat/completions. На iOS удобнее всего использовать официальный openai-swift пакет или написать тонкий wrapper на URLSession — зависимость от тяжёлых HTTP-клиентов здесь не нужна.
Ключевые параметры для мобильного ассистента:
let request = ChatCompletionRequest(
model: "gpt-4o",
messages: conversationHistory,
stream: true, // стриминг — обязателен для UX
maxTokens: 1024,
temperature: 0.7
)
Стриминг — не опция, а требование. Пользователь, который ждёт 5–8 секунд тишины перед появлением ответа, закрывает приложение. С stream: true первый токен приходит через 300–500 мс, и текст появляется посимвольно. Реализация на iOS через URLSession + AsyncBytes или через EventSource для SSE.
Мультимодальность GPT-4o. Передача изображения:
let message = ChatMessage(role: .user, content: [
.text("Что изображено на этом скриншоте?"),
.imageURL(base64Image: imageBase64, detail: .auto)
])
detail: .auto — модель сама выбирает между low (85 токенов) и high (до 1700 токенов) в зависимости от задачи. Для анализа документов лучше high, для быстрых ответов — low.
Управление контекстом и токенами
GPT-4o имеет контекстное окно 128K токенов. Но слать всю историю диалога в каждом запросе — ошибка, которая бьёт по стоимости и задержке. Правильная стратегия: скользящее окно с суммаризацией.
Когда история превышает порог (например, 4000 токенов), последние N сообщений сохраняются полностью, более ранние — заменяются summary, сгенерированным через отдельный вызов с gpt-4o-mini (дешевле в 20 раз). Summary хранится как system сообщение в начале истории.
Токены считаем через tiktoken на сервере или используем эвристику: ~4 символа ≈ 1 токен для английского, ~2–3 символа ≈ 1 токен для кириллицы.
Обработка ошибок и rate limits
OpenAI API возвращает 429 Too Many Requests при превышении rate limit. На мобильном клиенте нужен exponential backoff с jitter:
func retryWithBackoff<T>(maxAttempts: Int = 3, operation: () async throws -> T) async throws -> T {
var attempt = 0
while attempt < maxAttempts {
do {
return try await operation()
} catch APIError.rateLimitExceeded {
let delay = Double.random(in: 1.0...2.0) * pow(2.0, Double(attempt))
try await Task.sleep(nanoseconds: UInt64(delay * 1_000_000_000))
attempt += 1
}
}
throw APIError.maxRetriesExceeded
}
Таймаут на стриминговый запрос нужно ставить на уровне чтения (timeout per chunk), а не на весь запрос — иначе длинные ответы обрываются.
Безопасность API-ключа
API-ключ OpenAI нельзя хардкодить в мобильном приложении — его можно извлечь из бинарника за минуты. Правильная схема: мобильный клиент аутентифицируется на собственном бэкенде, бэкенд проксирует запросы к OpenAI с ключом из переменных окружения. Дополнительно — rate limiting на уровне пользователя.
Процесс работы
Аудит требований: какие модальности нужны (только текст, изображения, голос), нужен ли серверный прокси, требования к истории диалога (сколько хранить, синхронизировать ли между устройствами).
Разработка: API-клиент → стриминговый UI → управление историей → мультимодальность → обработка ошибок → серверный прокси.
Ориентиры по срокам
Текстовый ассистент с стримингом и историей — 1–2 недели. С изображениями, голосом, серверным прокси и управлением контекстом — 3–5 недель.







