Реализация AI-сравнения лица с документом (Face Match) в мобильном приложении
KYC-флоу без Face Match — это проверка документа, который никак не привязан к человеку перед камерой. Face Match закрывает этот пробел: сравнивает селфи пользователя с фотографией на документе и возвращает confidence score. Технически задача решается, но дьявол в деталях: качество фото в паспорте, освещение при селфи, возраст документа и aging factor.
Как работает face embedding comparison
Классический pipeline:
-
Детекция лица на обоих изображениях —
Vision.VNDetectFaceRectanglesRequestна iOS, ML KitFaceDetectorна Android. - Выравнивание (alignment) — нормализуем координаты глаз, нос в canonical face position. Без alignment совпадение падает на 15–20%.
- Embedding — CNN-модель (ArcFace, FaceNet) преобразует 112×112 px лицо в 512-мерный вектор.
- Cosine similarity между двумя векторами — значение 0.0–1.0, где ≥0.65 обычно считается совпадением (порог зависит от модели).
Важно: порог не универсален. Разные демографические группы показывают разный baseline similarity. Хорошая модель обучена на балансированном датасете (MS-Celeb-1M, VGGFace2 + аугментация) и валидирована на LFW / AgeDB с разбивкой по демографии. Модель без такой валидации — потенциальный дискриминационный риск и ложный FRR для пожилых пользователей.
On-device embedding на iOS
ArcFace R50, конвертированный в CoreML (coremltools), весит ~85 MB. Для мобильного продакшена лучше MobileFaceNet — 1.1 MB, точность на LFW 99.2% vs 99.6% у ArcFace R50. Разница в 0.4% критична редко, выигрыш в размере бандла существенный.
let faceModel = try MobileFaceNet(configuration: MLModelConfiguration())
guard let embedding = try? faceModel.prediction(face_input: alignedFaceBuffer) else { return }
func cosineSimilarity(_ a: MLMultiArray, _ b: MLMultiArray) -> Float {
var dot: Float = 0
var normA: Float = 0
var normB: Float = 0
for i in 0..<512 {
let ai = a[i].floatValue
let bi = b[i].floatValue
dot += ai * bi
normA += ai * ai
normB += bi * bi
}
return dot / (sqrt(normA) * sqrt(normB))
}
let score = cosineSimilarity(selfieEmbedding, documentEmbedding)
На Apple Neural Engine (A14+) inference MobileFaceNet занимает ~25 мс. iPhone SE 2nd gen — ~180 мс. Если целевая аудитория — бюджетные устройства, серверный inference выгоднее.
Особенность: фото в документе низкого качества
Фотография в паспорте — это сжатое, часто напечатанное и переснятое изображение. Типичные проблемы:
- Оверэкспозиция при съёмке страницы паспорта (блики на глянцевой плёнке).
- Моаре-паттерны от печатного растра при сканировании.
- Aging factor: паспорт выдан 9 лет назад, человек постарел.
Preprocessing pipeline для фото в документе: коррекция гаммы, denoising (Core Image CINoiseReduction), удаление блика через CIHighlightShadowAdjust. После этого — детекция и alignment как обычно.
Aging factor можно частично компенсировать через age-invariant модель или явную нормализацию: если на документе дата рождения >40 лет назад, снижаем порог similarity на 0.03–0.05.
Серверная верификация для высоких требований
On-device match подходит для внутренних сервисов. Для финансовых продуктов (banking, crypto onboarding) нужна серверная верификация с audit trail — логируем embeddings (не фото!), timestamp, device fingerprint, similarity score. Фото на сервер передавать нежелательно — только embeddings. Это и приватность, и экономия bandwidth.
Серверный стек: Python + insightface (ArcFace R100) + FAISS для батчевого поиска + PostgreSQL с pgvector для хранения embeddings. Латентность: ~150–300 мс на GPU T4.
Защита от атак
Face Match без liveness — атакуется фотографией. Без anti-spoofing — атакуется маской. Интеграция с Liveness Detection обязательна в production-сценарии. Сам Face Match — финальный шаг после liveness-прохождения, не самостоятельный модуль.
Этапы внедрения
Выбор модели (on-device/сервер) → интеграция detection + alignment → embedding + similarity → настройка threshold → тестирование на edge cases (очки, борода, плохое освещение, старые фото) → интеграция с liveness и IDV-флоу → аудит точности по демографии → публикация.
Сроки: интеграция готовой CoreML/TFLite модели — 3–5 недель. С серверным inference, audit trail и дообучением модели — 8–14 недель. Стоимость рассчитывается индивидуально.







