AI-групування осіб за облицями в галереї фотографій мобільних додатків
Групування за облицями — це розпізнавання того, що одна й та сама особа з'являється на різних фотографіях без ідентифікації (хто це). Технічно: виявлення обличчя → вилучення вбудовування (числовий вектор 128–512 вимірів) → кластеризація векторів за подібністю. Google Photos робить це на пристрої саме так.
On-Device vs Server: осмисленій вибір
Для цього завдання on-device — не просто зручно, це нормативна вимога в кількох юрисдикціях. Біометричні дані (вбудовування обличчя технічно вважаються біометрією) не можна передавати без явної згоди за GDPR та низкою національних законів. Рекомендую будувати on-device pipeline з нульовою передачею на сервер.
Pipeline: виявлення → вбудовування → кластеризація
Виявлення обличчя
// iOS: VNDetectFaceRectanglesRequest
let request = VNDetectFaceRectanglesRequest { req, _ in
guard let faces = req.results as? [VNFaceObservation], !faces.isEmpty else { return }
for face in faces {
let faceRect = VNImageRectForNormalizedRect(face.boundingBox, width, height)
self.extractEmbedding(from: originalImage.cropping(to: faceRect)!)
}
}
На Android: ML Kit FaceDetector або MediaPipe FaceDetector. ML Kit простіший у інтеграції; MediaPipe дає більше контролю.
Вилучення вбудовування
Apple не надає вбудованого API розпізнавання осіб (тільки виявлення). Використовуйте MobileFaceNet — компактну модель (1–3 MB) для вбудовування обличь, працює on-device через Core ML:
// Вилучити 128-мірне вбудовування
func extractEmbedding(from faceImage: CGImage) -> [Float]? {
guard let input = try? MobileFaceNetInput(face_image: MLMultiArray(from: resize(faceImage, to: CGSize(width: 112, height: 112)))) else { return nil }
guard let output = try? facenetModel.prediction(input: input) else { return nil }
// Нормалізувати вектор (L2 норма)
let embedding = (0..<128).map { output.embedding[$0].floatValue }
return l2Normalize(embedding)
}
func l2Normalize(_ v: [Float]) -> [Float] {
let norm = sqrt(v.reduce(0) { $0 + $1 * $1 })
return norm > 0 ? v.map { $0 / norm } : v
}
Після L2-нормалізації косинусна відстань між вбудовуванням однієї особи — <0,3, різних людей — >0,6. Поріг 0,4–0,5 добре працює на практиці.
Кластеризація
Для кластеризації без заздалегідь відомої кількості кластерів — використовуйте DBSCAN. Swift не має вбудованої реалізації; напишіть самостійно або використовуйте Accelerate/BLAS:
// Спрощений DBSCAN для кластеризації обличчя
func dbscan(embeddings: [[Float]], eps: Float = 0.45, minPoints: Int = 2) -> [Int] {
var labels = Array(repeating: -1, count: embeddings.count) // -1 = шум
var clusterId = 0
for i in 0..<embeddings.count {
guard labels[i] == -1 else { continue }
let neighbours = rangeQuery(embeddings: embeddings, idx: i, eps: eps)
if neighbours.count < minPoints { continue } // точка шуму
labels[i] = clusterId
var seeds = neighbours
while !seeds.isEmpty {
let q = seeds.removeFirst()
if labels[q] == -1 { labels[q] = clusterId }
if labels[q] != clusterId { continue }
labels[q] = clusterId
let qNeighbours = rangeQuery(embeddings: embeddings, idx: q, eps: eps)
if qNeighbours.count >= minPoints { seeds.append(contentsOf: qNeighbours) }
}
clusterId += 1
}
return labels
}
Косинусна відстань через Accelerate vDSP_dotpr — швидко навіть для 10k векторів.
Продуктивність на великих галереях
Реальна галерея — 5000–50000 фото. Приблизно 30–40% містять обличчя. Припустимо 10000 фото з обличчями, в середньому 2 обличчя кожна = 20000 вбудовувань.
DBSCAN з O(n²) на 20k 128-мірних векторах — ~10–30 секунд на iPhone 14. Прискорення: попередній ANN (Approximate Nearest Neighbour) через FAISS (існує Swift binding) скорочує до O(n log n).
Запустіть обробку у фоні через BackgroundTask (iOS 13+, BGProcessingTask) — завдання може працювати кілька хвилин поки пристрій заряджається.
BGTaskScheduler.shared.register(forTaskWithIdentifier: "com.app.faceGrouping") { task in
let bgTask = task as! BGProcessingTask
self.runFaceGrouping(completion: { bgTask.setTaskCompleted(success: true) })
bgTask.expirationHandler = { /* зберегти прогрес */ }
}
Зберігання результатів
Не можна зберігати самі вбудовування в iCloud/CloudKit без явної згоди (біометрія). Локально — у Core Data, зашифровано через Data Protection API (fileProtection = .complete). Ідентифікатор для картування — PHAsset.localIdentifier, не вихідне фото.
Часові рамки
On-device pipeline з виявленням, вбудовуваннями та кластеризацією для середніх галерей — 2–3 тижні. Масштабуюча реалізація з FAISS, фоновою обробкою, інкрементальними оновленнями та UI — 4–5 тижнів. Вартість розраховується індивідуально.







