Разработка AI-системы мониторинга даркнета Dark Web Monitoring
Утечки корпоративных данных появляются в даркнете в среднем через 72 часа после взлома — задолго до того, как жертва узнаёт об инциденте. AI-мониторинг даркнета закрывает этот слепой угол.
Что мониторим и зачем
Даркнет — не единственная зона риска. Типичный охват системы:
- Tor-сети: форумы хакеров (RaidForums, BreachForums-клоны), рынки дампов, paste-сайты
- Telegram-каналы: продажа доступов, утечки баз, carding-каналы
- IRC и Discord-серверы: координация атак, обмен инструментами
- Surface web paste-bins: Pastebin, Ghostbin, JustPaste.it
- Закрытые форумы: XSS.is, Exploit.in (доступ через специализированных агентов)
Что ищем: корпоративные email-домены, хэши паролей из корпоративных сетей, номера карт сотрудников, API-ключи, исходный код, упоминания бренда в контексте атак, предложения о продаже доступа к конкретной компании.
Архитектура системы
Distributed Crawling Layer
Стандартные веб-краулеры не работают с Tor. Необходима инфраструктура с Tor-прокси, ротацией exit nodes, имитацией человеческого поведения для обхода bot-protection на закрытых форумах. Система управляет пулом из 50–200 виртуальных идентификаторов с собственной историей активности на форумах.
Скорость: 2–5 млн документов в сутки при типичном enterprise-развёртывании.
NLP Pipeline для извлечения сущностей
Сырой текст с форумов — зашумлённый, жаргонный, многоязычный. Пайплайн:
- Language detection + нормализация (хакерский жаргон, leet-speak, транслитерация)
- NER (Named Entity Recognition) для извлечения email, доменов, IP, хэшей, card numbers
- Classifier релевантности: отделяет упоминания компании от шума (F1 >0.87 на тестовой выборке)
- Severity scoring: насколько критична найденная информация — от низкого (упоминание бренда в обсуждении) до критического (продажа активного доступа к инфраструктуре)
Модели: fine-tuned RoBERTa для классификации, spaCy + кастомные NER для извлечения, sentence-transformers для semantic search по архиву.
Identity Matching Engine
Корпоративные утечки нужно верифицировать — не все "dumps" реальны. Система проверяет:
- Хэши паролей через rainbow tables (только для верификации факта утечки, не для восстановления)
- Email-домены против corporate directory
- Паттерны данных (формат имён, внутренние ID) против известных корпоративных форматов
Alert Pipeline
Подтверждённый инцидент → немедленный алерт в SIEM, Slack, email SOC-команды. Алерт содержит: источник, тип данных, примерный объём, ссылку на оригинальный пост (с snapshots — посты часто удаляются), рекомендации по реагированию.
Технический стек
Crawling: Python + Scrapy + Tor SOCKS5 + Playwright (для JS-heavy sites)
Queue: Apache Kafka (100k+ msg/sec throughput)
NLP: HuggingFace Transformers, spaCy, fastText
Storage: Elasticsearch (полнотекстовый поиск), PostgreSQL (структурированные алерты)
Dedup: MinHash LSH для near-duplicate detection
Orchestration: Apache Airflow
Alerting: PagerDuty / Opsgenie integration
Временные рамки и покрытие
После развёртывания системы:
- День 1–7: индексация текущего состояния (backfill последних 90 дней публичных источников)
- День 8–14: настройка кастомных паттернов под компанию, первые алерты
- Месяц 2: подключение закрытых форумов (требует создания легенды аккаунтов)
- Ongoing: расширение охвата, дообучение классификаторов на новых жаргонных паттернах
Среднее время от появления данных в даркнете до алерта: 15–45 минут для мониторируемых источников.
Что даёт на практике
Реальный сценарий использования: сотрудник скомпрометирован через фишинг, его корпоративные credentials продаются на форуме. Без мониторинга — компания узнаёт об этом через 197 дней (если узнаёт вообще). С системой — алерт через 30 минут, SOC сбрасывает credentials и начинает расследование до того, как покупатель успевает использовать доступ.
Дополнительно система выявляет: планируемые атаки (обсуждения в хакерских чатах), конкурентный шпионаж (кто заказывает атаки на вашу компанию), third-party риски (утечки через подрядчиков с доступом к вашим системам).







