AI Automated PII/Personal Data Detection System

We design and deploy artificial intelligence systems: from prototype to production-ready solutions. Our team combines expertise in machine learning, data engineering and MLOps to make AI work not in the lab, but in real business.
Showing 1 of 1 servicesAll 1566 services
AI Automated PII/Personal Data Detection System
Medium
~2-4 weeks
FAQ
AI Development Areas
AI Solution Development Stages
Latest works
  • image_website-b2b-advance_0.png
    B2B ADVANCE company website development
    1212
  • image_web-applications_feedme_466_0.webp
    Development of a web application for FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Website development for BELFINGROUP
    852
  • image_ecommerce_furnoro_435_0.webp
    Development of an online store for the company FURNORO
    1041
  • image_logo-advance_0.png
    B2B Advance company logo design
    561
  • image_crm_enviok_479_0.webp
    Development of a web application for Enviok
    822

AI-система автоматического обнаружения PII/PD в данных

Большинство компаний не знают, где хранятся их персональные данные. Регуляторные штрафы приходят именно за это незнание. AI-система обнаружения PII решает задачу инвентаризации за дни, а не месяцы.

Что нужно обнаружить

Прямые идентификаторы (PII)

  • Имена, фамилии, отчества
  • Даты рождения
  • Паспортные данные, серии и номера документов
  • ИНН, СНИЛС, номера полисов ОМС
  • Адреса проживания
  • Номера телефонов, email-адреса
  • Банковские реквизиты (PAN, IBAN, BIC)
  • IP-адреса (при наличии привязки к личности)

Косвенные идентификаторы (квазиидентификаторы)

  • Почтовый индекс + дата рождения + пол → идентифицирует 87% американцев (исследование Sweeney)
  • Профессия + работодатель + район проживания

Специальные категории (sensitive)

  • Медицинские диагнозы, рецепты, анализы
  • Биометрические данные (фото для распознавания, fingerprints)
  • Данные о судимостях
  • Политические взгляды, религиозные убеждения
  • Сексуальная ориентация

Архитектура NLP-пайплайна

Этап 1: Document ingestion

Поддерживаемые форматы: TXT, DOCX, XLSX, PDF, CSV, JSON, XML, email (EML/MSG), базы данных (SQL), объектные хранилища (S3, MinIO). Для изображений и сканов — OCR через Tesseract/AWS Textract/Google Document AI.

Этап 2: Named Entity Recognition

Fine-tuned BERT/RoBERTa для мультиязычного NER с кастомными entity типами:

Базовые NER: PER, ORG, LOC, DATE
Кастомные: PASSPORT_RU, INN, SNILS, PHONE_RU, CARD_PAN, EMAIL, IP_ADDR, MEDICAL_CONDITION

Дополнительно: regex-паттерны для структурированных данных (номера документов, карт, ИНН — имеют контрольные суммы для верификации). NER + regex работают в ансамбле.

Этап 3: Context classification

Контекстная модель определяет, является ли найденная сущность реальными персональными данными или примером/тестовыми данными:

  • "Пример: Иван Иванов" → не PII
  • "Клиент Иван Иванов оформил кредит" → PII
  • "John Doe" в шаблоне документа → не PII

F1 контекстного классификатора: 0.89–0.93 в зависимости от домена.

Этап 4: Структурированные данные

Для баз данных и CSV — column-level profiling:

  • Статистика распределения значений
  • ML-классификатор типа колонки на основе имени, примеров значений, паттернов
  • Детекция PII в свободных текстовых полях (комментарии, примечания)

Сканирование инфраструктуры

Файловые серверы: SMB, NFS → рекурсивное сканирование
Email: Microsoft 365 API, Exchange EWS, IMAP
Облако: AWS S3, Azure Blob, GCP Storage
Базы данных: PostgreSQL, MySQL, MSSQL, Oracle, MongoDB
CRM/ERP: Salesforce, SAP, 1C (через API)
Collaboration: Confluence, SharePoint, Notion

Инкрементальное сканирование: первичный scan полного корпуса, далее — только новые/изменённые файлы через change detection.

Результаты и отчётность

Выходной отчёт содержит:

  • Data map: где, какие типы PII, в каком объёме
  • Risk score по каждому хранилищу (sensitivity × accessibility × retention period)
  • Примеры найденных данных (с маскированием для отчёта)
  • Mapping на статьи GDPR/152-ФЗ
  • Рекомендации по устранению: удалить, анонимизировать, переместить в защищённое хранилище

Производительность: 500 GB структурированных данных или 200k документов за рабочий день при стандартной конфигурации.

Регулярное сканирование (еженедельно/ежемесячно) держит data map актуальным и упрощает ответы на запросы субъектов персональных данных (DSAR) — срок ответа по GDPR 30 дней.