AI-система автоматического обнаружения PII/PD в данных
Большинство компаний не знают, где хранятся их персональные данные. Регуляторные штрафы приходят именно за это незнание. AI-система обнаружения PII решает задачу инвентаризации за дни, а не месяцы.
Что нужно обнаружить
Прямые идентификаторы (PII)
- Имена, фамилии, отчества
- Даты рождения
- Паспортные данные, серии и номера документов
- ИНН, СНИЛС, номера полисов ОМС
- Адреса проживания
- Номера телефонов, email-адреса
- Банковские реквизиты (PAN, IBAN, BIC)
- IP-адреса (при наличии привязки к личности)
Косвенные идентификаторы (квазиидентификаторы)
- Почтовый индекс + дата рождения + пол → идентифицирует 87% американцев (исследование Sweeney)
- Профессия + работодатель + район проживания
Специальные категории (sensitive)
- Медицинские диагнозы, рецепты, анализы
- Биометрические данные (фото для распознавания, fingerprints)
- Данные о судимостях
- Политические взгляды, религиозные убеждения
- Сексуальная ориентация
Архитектура NLP-пайплайна
Этап 1: Document ingestion
Поддерживаемые форматы: TXT, DOCX, XLSX, PDF, CSV, JSON, XML, email (EML/MSG), базы данных (SQL), объектные хранилища (S3, MinIO). Для изображений и сканов — OCR через Tesseract/AWS Textract/Google Document AI.
Этап 2: Named Entity Recognition
Fine-tuned BERT/RoBERTa для мультиязычного NER с кастомными entity типами:
Базовые NER: PER, ORG, LOC, DATE
Кастомные: PASSPORT_RU, INN, SNILS, PHONE_RU, CARD_PAN, EMAIL, IP_ADDR, MEDICAL_CONDITION
Дополнительно: regex-паттерны для структурированных данных (номера документов, карт, ИНН — имеют контрольные суммы для верификации). NER + regex работают в ансамбле.
Этап 3: Context classification
Контекстная модель определяет, является ли найденная сущность реальными персональными данными или примером/тестовыми данными:
- "Пример: Иван Иванов" → не PII
- "Клиент Иван Иванов оформил кредит" → PII
- "John Doe" в шаблоне документа → не PII
F1 контекстного классификатора: 0.89–0.93 в зависимости от домена.
Этап 4: Структурированные данные
Для баз данных и CSV — column-level profiling:
- Статистика распределения значений
- ML-классификатор типа колонки на основе имени, примеров значений, паттернов
- Детекция PII в свободных текстовых полях (комментарии, примечания)
Сканирование инфраструктуры
Файловые серверы: SMB, NFS → рекурсивное сканирование
Email: Microsoft 365 API, Exchange EWS, IMAP
Облако: AWS S3, Azure Blob, GCP Storage
Базы данных: PostgreSQL, MySQL, MSSQL, Oracle, MongoDB
CRM/ERP: Salesforce, SAP, 1C (через API)
Collaboration: Confluence, SharePoint, Notion
Инкрементальное сканирование: первичный scan полного корпуса, далее — только новые/изменённые файлы через change detection.
Результаты и отчётность
Выходной отчёт содержит:
- Data map: где, какие типы PII, в каком объёме
- Risk score по каждому хранилищу (sensitivity × accessibility × retention period)
- Примеры найденных данных (с маскированием для отчёта)
- Mapping на статьи GDPR/152-ФЗ
- Рекомендации по устранению: удалить, анонимизировать, переместить в защищённое хранилище
Производительность: 500 GB структурированных данных или 200k документов за рабочий день при стандартной конфигурации.
Регулярное сканирование (еженедельно/ежемесячно) держит data map актуальным и упрощает ответы на запросы субъектов персональных данных (DSAR) — срок ответа по GDPR 30 дней.







