Відповідальний AI: справедливість, усунення упередження та пояснюваність
Регулятор відмовляє в сертифікації продукту, тому що модель не може пояснити, чому вона відклала кредитну заявку. Внутрішній аудит знаходить, що модель скорингу систематично недооцінює кандидатів з певних регіонів. Клієнт запитує: "Чому саме така відповідь?" — і система не може відповісти.
Відповідальний AI — це не етична декларація. Це набір технічних вимог до системи, яка впливає на рішення про людей.
Три стовпи та чому вони інженерні, а не філософські
Справедливість — формальне визначення, яке не можна вибрати навмисне
Існує більше 20 формальних визначень чесності моделі, і вони математично несумісні. Demographic parity (однакова частка позитивних передбачень по групах) суперечить equalized odds (однакові TPR та FPR по групах). Неможливо задовільнити обидва одночасно при наявності різниці в base rates між групами — це доведено теоремою Chouldechova (2017).
Тому перший крок — не "зробити модель справедливою", а вибрати визначення справедливості, релевантне для конкретного юзкейсу. Для кредитного скорингу equalized odds більш пріоритетний ніж demographic parity. Для найму — це дискусійно і залежить від законодавства.
Інструменти для вимірювання: Fairlearn (Microsoft) — demographic parity difference, equalized odds difference, false positive rate ratio. AIF360 (IBM) — ширший набір метрик. Обидва інтегруються з scikit-learn API.
Упередження — звідки береться і де шукати
Historical bias — дані відображають минулі дискримінаційні рішення. Модель, навчена на історичному наймі в tech, відтворить gender bias. Рішення: reweighing (взвешування прикладів при навчанні) або adversarial debiasing (додаткова adversarial голова, що карає за передбачення захищеного атрибуту).
Measurement bias — ознаки-прокси. Поштовий індекс корелює з расою, частота використання фінансових продуктів корелює з доходом. Видалення захищеного атрибуту не допомагає, якщо прокси-ознаки залишаються. Потрібен кореляційний аналіз всіх ознак з захищеними атрибутами.
Label bias — упередження в розмітці. Якщо анотатори систематично по-різному розмітили тексти від різних груп, модель навчиться на цьому упередженні. Аудит узгодження між анотаторами (Cohen's kappa) по захищеним групам обов'язковий.
Feedback loop bias — модель впливає на реальність, яку потім знову збирають як дані. Рекомендаційна система показує менше контенту певній групі → вони менше кликають → модель "підтверджує", що їм це не цікаво. Вирішується diversity forcing у рекомендаціях і спеціальним моніторингом distribution shift по групах.
Пояснюваність — глобальна vs локальна, і коли що потрібно
Глобальна пояснюваність — розуміння, які ознаки важливі для моделі в цілому. Feature importance з дерев рішень, permutation importance, глобальні SHAP values. Потрібна для аудиту, регуляторів, команди розробки.
Локальна пояснюваність — пояснення конкретного передбачення. SHAP (additive feature attribution), LIME (local linear approximation), Integrated Gradients для нейронних мереж. Потрібна для оператора моделі, який пояснює рішення конкретному клієнту.
Для LLM — окрема історія. SHAP погано застосовується до авторегресивних моделей через високу розмірність. Тут працюють attention visualization (з застереженнями — attention ≠ importance), Chain-of-Thought prompting як форма пояснення, і counterfactual generation ("як змінилася б відповідь, якби...").
Практичний кейс
Клієнт — банк, модель кредитного скорингу на LightGBM (650 ознак, навчена на 5 років даних). Регулятор потребував: пояснення кожної відмови + доказ відсутності дискримінації за віком та регіоном.
Кроки:
-
Fairness audit: завантажили Fairlearn, виміряли false positive rate ratio по віковим групам (18–25 років vs 35–55 років) — 1.84 при допустимому 1.25. Група 18–25 отримувала відмови значно частіше при порівнянних параметрах.
-
Bias source: кореляційний аналіз — ознака "середній залишок на рахунку за 12 місяців" корелював з віком (r=0.61). Це proxy discrimination.
-
Mitigation: reweighing тренувальної вибірки плюс Fairlearn GridSearch для знаходження порога, що мінімізує false positive rate ratio при допустимій втраті accuracy (ΔAUC = -0.012, прийнятно).
-
Explainability: SHAP values для кожного рішення, інтеграція в API, автоматична генерація пояснень для клієнта ("Основні фактори: висока боргова навантаження (вага +0.34), коротка кредитна історія (вага +0.28)").
Результат: регуляторне схвалення отримано, false positive rate ratio знижено до 1.18.
Вимоги compliance у 2025 році
| Регуляція | Вимога | Технічна реалізація |
|---|---|---|
| EU AI Act (High-Risk) | Пояснюваність, аудит | SHAP/LIME + fairness metrics |
| GDPR Art. 22 | Право на пояснення автоматичного рішення | Локальна пояснюваність |
| Equal Credit Opportunity Act (США) | Недискримінація у кредитуванні | Fairness audit + documentation |
| Федеральний закон 152 (РФ) | Обробка персональних даних | Анонімізація у пайплайні |
Процес
Аудит моделі — поточні метрики fairness, аналіз ознак на proxy discrimination, перевірка розмітки.
Вибір визначення справедливості — спільно з legal/compliance командою.
Технічна мітигація — reweighing, adversarial debiasing, оптимізація порога.
Інтеграція пояснень — SHAP/LIME у inference pipeline, формат для регулятора та для кінцевого користувача.
Документація — Model Card (Mitchell et al., 2019) плюс Algorithmic Impact Assessment.
Терміни: аудит існуючої моделі — 2–3 тижні. Повний цикл мітигації та впровадження пояснюваності — 6–10 тижнів.







