Разработка AI-системы классификации и защиты конфиденциальных данных DLP AI
Традиционный DLP работает на keyword matching и regex. Он ловит "ИНН 7743013904", но пропускает таблицу с зарплатами без явных маркеров и не понимает контекст. AI-DLP работает с семантикой, не с шаблонами.
Ограничения классического DLP
- Высокий false positive rate: 30–45% алертов ложные, SOC игнорирует их
- Контекстная слепота: одни и те же данные легитимны в одном контексте и критичны в другом
- Обход через encoding: данные в изображениях, ZIP-архивах, PDFs — не детектируются
- Неструктурированные данные: 80% корпоративных данных — неструктурированные тексты, документы, переписки
Data Discovery и классификация
Автоматическое сканирование хранилищ
Система сканирует все источники данных: файловые серверы, SharePoint, OneDrive, S3, базы данных, email архивы, корпоративные мессенджеры. Объём — от терабайт до петабайт с инкрементальным обновлением.
ML-классификация документов
Многоуровневая иерархия классификации:
- Уровень 1: Public / Internal / Confidential / Restricted / Top Secret
- Уровень 2: тип данных (финансовые, персональные, медицинские, технические, юридические)
- Уровень 3: специфичные категории (GDPR personal data, PCI card data, HIPAA PHI, государственная тайна)
Модели: fine-tuned BERT/RoBERTa для классификации текстов, ResNet для документов как изображений (OCR + layout analysis), специализированные NER для PII-сущностей.
Контекстный анализ PII
Система понимает контекст. "Иван Петров" в приказе об увольнении — конфиденциальные HR-данные. Тот же "Иван Петров" в публичном пресс-релизе — нет. Это невозможно решить регексом.
Типы PII, детектируемые с учётом контекста:
- ФИО, адреса, телефоны, email
- Паспортные данные, ИНН, СНИЛС
- Номера банковских карт (PAN), счетов
- Медицинские диагнозы, назначения
- Биометрические данные
- Корпоративные секреты (формулы, исходный код, бизнес-планы)
DLP Enforcement
Endpoint DLP
Агент на рабочих станциях контролирует:
- Копирование на USB (с анализом содержимого, не только имени файла)
- Печать (оценка конфиденциальности документа перед отправкой)
- Upload в облако (классификация в реальном времени)
- Email attachments (проверка содержимого вложений)
- Screenshot / screen recording конфиденциальных данных
Network DLP
Анализ исходящего трафика на уровне сети:
- HTTPS inspection (с учётом privacy требований)
- Детекция data в зашифрованных туннелях
- Watermarking — невидимые метки в документах для отслеживания источника утечки
Cloud DLP
Интеграция с CASB (Cloud Access Security Broker):
- Мониторинг Microsoft 365, Google Workspace, Salesforce, Box
- Ретроспективный анализ уже загруженных данных
- Автоматические политики на уровне облачного хранилища
Автоматизация политик
На основе результатов классификации система автоматически:
- Применяет Rights Management (IRM/DRM) к документам
- Устанавливает retention policies
- Ограничивает sharing в корпоративных системах
- Генерирует compliance reports (GDPR Article 30 — реестр деятельности)
Точность и производительность
| Метрика | Результат |
|---|---|
| PII detection F1 | 0.93–0.96 |
| Document classification accuracy | 91–94% |
| False positive rate vs. rule-based | -62% |
| Processing speed | 10,000+ документов/час |
| OCR + classification (images) | 500–800 страниц/час |
Compliance mapping
Каждый тип данных автоматически маппится на применимые регуляторные требования:
- GDPR: статьи 5, 25, 32 — обоснование мер защиты
- 152-ФЗ: категории персональных данных → уровень защищённости ИСПДн
- PCI DSS: cardholder data environment scope
- HIPAA: PHI/ePHI идентификация и защита
Это критично для аудитов: система генерирует актуальный data map по требованию регулятора за минуты вместо недель ручной работы.







