AI-система threat intelligence
Threat intelligence без автоматизации — это огромный поток неструктурированных данных из десятков источников: коммерческие фиды, OSINT, даркнет мониторинг, отраслевые ISACs, vendor отчёты. Аналитик тратит 70% времени на сбор и нормализацию, 30% — на реальный анализ. AI переворачивает это соотношение.
Источники и типы TI-данных
Тактические (IoC). IP-адреса, домены, URL, хеши файлов, сертификаты — конкретные индикаторы компрометации. Высокая частота обновления, короткий срок жизни (IP-адрес C2 меняется за часы).
Оперативные. TTPs (Tactics, Techniques, Procedures) конкретных threat actors. MITRE ATT&CK mapping. Кампании и attribution. Срок жизни — недели/месяцы.
Стратегические. Мотивации, цели, геополитический контекст для конкретных APT-групп. Меняется медленно, важно для приоритизации защитных мер.
AI-пайплайн сбора и обработки
OSINT collection. Автоматический мониторинг: блоги вендоров безопасности, pastebin, GitHub (утечки кода/конфигов), Twitter/X сообщество TI, Telegram каналы. Scrapers + RSS + API.
NLP для обработки текста. Ключевая задача: из неструктурированного текста отчёта об угрозе — извлечь структурированные сущности.
Named Entity Recognition для cyber domain: IP-адреса, CVE-номера, названия ПО, имена APT-групп, MITRE ATT&CK техники. Relation extraction: «APT29 uses Cobalt Strike for C2» → (APT29, uses, CobaltStrike), (CobaltStrike, purpose, C2).
Обученный cyber-domain NER (fine-tuned BERT на CyberRC, SecureNLP датасетах):
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline
# CyberBERT - fine-tuned для cybersecurity NER
model_name = "CyberPeace-Institute/cybersecurity-ner"
cyber_ner = pipeline("ner", model=model_name, aggregation_strategy="simple")
text = "APT29 leveraged CVE-2023-23397 to gain initial access, then deployed Cobalt Strike beacons communicating to 185.220.x.x"
entities = cyber_ner(text)
# Output: APT-GROUP: APT29, CVE: CVE-2023-23397, TOOL: Cobalt Strike, IP: 185.220.x.x
Threat actor profiling. Кластеризация TTPs для attribution. K-means / DBSCAN на векторных представлениях TTP-наборов. Схожие TTP-кластеры → вероятная атрибуция к известной группе.
Predictive intelligence. На основе истории кампаний: какие CVE будут эксплуатироваться в ближайшие 30 дней? Модель учитывает: публичный exploit available, CVSS score, наличие упоминаний на даркнет-форумах, текущие кампании, использующие аналогичные техники.
Обогащение и приоритизация
Raw IoC от фидов — тысячи записей. Не все одинаково важны для конкретной организации. AI обогащает:
- Relevance scoring: насколько данная угроза релевантна для отрасли/технологического стека клиента
- Freshness: IoC, добавленный сегодня > добавленного 6 месяцев назад
- Confidence: IoC из нескольких независимых источников > из одного
- Context: IoC с известным threat actor + TTP > безымянный IP
Результат: из 10 000 IoC в день → 50–200 приоритизированных для немедленного action.
Автоматическое распространение в защитные системы
STIX/TAXII — стандарт обмена TI. MISP как open-source платформа агрегации. Автоматический pipeline: новый высокорелевантный IoC → SIEM (blocklist update) → NGFW (IP rule) → EDR (hash blacklist) → Email gateway.
Время от получения IoC до деплоя в защитные системы: автоматически за <5 минут vs. часы ручной работы.
Мониторинг даркнета
NLP-анализ даркнет-форумов и маркетплейсов (через легальные агрегаторы типа Recorded Future, Intel 471, или собственные crawler'ы где это легально):
- Упоминания бренда компании или доменов
- Продажа credential дампов с корпоративными email-адресами
- Обсуждение атак на компанию или её партнёров
Early warning даёт 24–72 часа до активной атаки в ряде случаев.
Практический кейс
Банк, аналитик безопасности 1 человек. Раньше: ручной просмотр ~200 TI-отчётов в неделю, добавление IoC вручную в SIEM.
После AI TI-системы:
- 200 отчётов автоматически парсятся, извлекаются 3 000–5 000 IoC в неделю
- После обогащения и приоритизации: 80–120 IoC требуют attention
- Аналитик тратит 2 часа vs. 20 часов на TI-работу
- Время до деплоя критических IoC: 4 минуты автоматически
- За 3 месяца: 2 потенциальных атаки предотвращены на стадии initial access по IoC из TI
Сроки: 4–8 недель для базового TI-пайплайна с OSINT collection и MISP, 3–6 месяцев для полной AI TI-платформы с NLP extraction, predictive analytics и darkweb мониторингом.







