Реалізація Content Safety фільтрів для AI-генерації в мобільному додатку
Коли мобільний додаток генерує текст, зображення або аудіо через AI, користувачі рано чи пізно спробують отримати небажаний контент — навмисно чи випадково. Модерація через системний промпт («не генеруй шкідливий контент») працює гірше, ніж здається: промпт можна обійти, а за наслідки відповідатимете ви.
Що та як фільтруємо
Текстова генерація. OpenAI Moderation API — безкоштовний ендпоінт, повертає оцінки по категоріям: hate, harassment, self-harm, sexual, violence та їхнім підкатегоріям. Latency 100–200мс, прийнятна як post-фільтр.
Застосовуйте до користувацького входу (input moderation) та відповіді моделі (output moderation). Подвійна перевірка додає ~200–400мс загальної latency, але дає захист обох шарів.
Azure Content Safety — детальніша градація (safe / low / medium / high severity) та додаткові категорії для регульованих ринків. Потрібна якщо додаток працює в EU/US з compliance вимогами.
Зображення. DALL-E 3 та Stable Diffusion мають вбудовані safety checkers, але adversarial промпти їх обходять. Додатковий шар — Google Cloud Vision SafeSearch або AWS Rekognition для post-перевірки згенерованого зображення.
Користувацький контент та UGC-ризики
Якщо користувач завантажує контент (фото, текст), який передається в контекст LLM — окремий вектор ризику. Зображення може містити вбудований текст з інструкціями (prompt injection через OCR), текстовий документ — спробу переопредилити системний промпт.
Для UGC: модерація перед тим як контент входить в базу; модерація при кожній передачі в AI-пайплайн. Не кешуйте результат модерації надовго — користувач може змінити контент.
Логування порушень та апеляції
Логуйте кожен заблокований запит з категорією порушення, але без повного тексту повідомлення (GDPR). Покажіть користувачу зрозумілу повідомлення, не технічний код помилки. Передбачте механізм оспорювання хибних спрацьовувань — у всіх фільтрів є false positive rate.
Орієнтири за часом
Базова інтеграція OpenAI Moderation API — 1 день. Двошарова фільтрація (input + output) з обробкою помилок — 2–3 дні. Розширена система з логуванням, метриками та механізмом апеляції — 4–5 днів.







