AI-система автоматизації ESG-звітності
CSRD зобов'язує 50 000+ компаній ЄС публікувати звіти ESRS (European Sustainability Reporting Standards) з 2024–2026 років. Обсяг розкриттів зріс у 3–5 разів, порівняно з добровільними стандартами GRI. Команда з 3 sustainability-фахівців фізично не справляється зі щоквартальним збором даних, верифікацією та генерацією наративів для 200-сторінкового звіту.
LLM-pipeline для генерації наративів
Архітектура: дані → текст без галюцинацій
Головний ризик LLM у ESG-звітності – hallucinated numbers. Регулятор і аудитор вимагають верифікованість кожної цифри. Рішення: RAG-архітектура з жорсткою citation policy.
ESG Data Warehouse (Snowflake)
↓
dbt mart: предрассчитанные disclosure metrics
↓
Vector store (pgvector): описания ESRS требований
↓
LLM (GPT-4o / Claude 3.5 Sonnet)
↓
Нарратив с inline citations [data_point_id]
↓
Верификационный слой: каждая цифра → lookup в БД
Якщо LLM включає число, якого немає в retrieval context, верифікаційний шар викидає виняток, не публікує абзац. На практиці: 94% наративних абзаців генеруються коректно без ручного виправлення за даними тестування на історичних звітах.
Мапінг даних на стандарти
ESRS, GRI, TCFD, SASB — різні стандарти вимагають одні й самі дані у різних форматах і контекстах. ML-компонент: fine-tuned text classifier (BERT) визначає, до яких disclosure requirements належить кожен data point. Один показник (наприклад, energy consumption by source) автоматично маппіт на ESRS E1-4, GRI 302-1, SASB energy metric - без ручного cross-referencing.
Double Materiality Assessment
CSRD вимагає оцінки: (1) як ESG-фактори впливають на фінанси компанії (financial materiality); (2) як компанія впливає на суспільство та природу (impact materiality). Це матриця 40-80 тем.
Автоматизація stakeholder survey
Опитування стейкхолдерів – обов'язковий елемент DMA. NLP-пайплайн: - Збір відповідей через survey platform (SurveyMonkey, Typeform) - Topic modeling (BERTopic) за відкритими відповідями → кластери ESG-тем - Sentiment analysis з кожної теми - Автоматичне ранжування тем за frequency + intensity score
На кейсі виробничої компанії: обробка 450 анкет із відкритими відповідями зайняла 2 години vs. 3 тижні вручну. Ідентифіковано 23 теми, ранжировані з materiality score.
Industry benchmarking
Peer comparison: scraping публічних ESG-звітів конкурентів + LLM extraction ключових KPI → порівняльні таблиці. Дозволяє визначити, які теми галузеві гравці вважають матеріал, для калібрування власної оцінки.
Автоматизація збору даних
Supplier data collection
CSRD Scope 3 потребує даних від постачальників. Email-агент на базі LLM формує персоналізовані запити даних, відстежує відповіді, відправляє нагадування, парсить листи та документи. Response rate зростає з 23% (manual) до 41% (AI-assisted follow-up) на пілоті 120 постачальників.
Внутрішня звітність
Інтеграція з ERP (SAP, Oracle): автоматичний pull енергетичних даних, даних відходів, HSE (Health, Safety, Environment) інцидентів. HRIS (Workday, SAP SuccessFactors): gender pay gap, training hours, diversity metrics без ручного експорту.
Верифікація та аудит
External assurance (limited/reasonable) вимагає audit trail для кожної цифри. Система зберігає provenance: data_point → source_system → raw_record_id → transformation_logic. Аудитор отримує drill-down посилання зі звіту до вихідного лічильника чи документа.
Automated consistency checks: перехресна перевірка даних між розділами звіту (Scope 1 в environmental section повинен збігатися зі Scope 1 у risk section), year-over-year variance alerts (>30% зміна без пояснення = прапор для перевірки).
Стек та вихідні формати
Зберігання: Snowflake + DBT. LLM: GPT-4o через Azure OpenAI, Claude 3.5 Sonnet через Anthropic API. Vector store: pgvector (PostgreSQL) чи Weaviate. Генерація PDF: WeasyPrint чи Puppeteer. Висновок: XBRL/iXBRL для регуляторної подачі (ESEF формат ESRS).
Термін розробки: 4-8 місяців для повного pipeline від data ingestion до створення звіту. Базовий автоскладальник даних без LLM наративів: 2-3 місяці.







