Розробка AI-системи e-Discovery для судових справ
e-Discovery (електронне розкриття) — процес виявлення, збирання та аналізу електронних документів у ході судового розбирництва чи розслідування. AI-система обробляє терабайти даних і виявляє релевантні документи.
Етапи e-Discovery (EDRM Framework)
Identification: визначення джерел даних (email-сервери, файлові системи, месенджери, хмарні сховища).
Preservation: юридичне утримання — збереження даних без змін після повідомлення про позов.
Collection: збирання даних з джерел з дотриманням ланцюга зберігання.
Processing: конвертація в єдиний формат, дедублікація, фільтрація за датою/зберігачем.
Review: AI-асистований перегляд — пріоритизація документів за релевантністю.
Production: передача документів опонентам у потрібному форматі.
Technology-Assisted Review (TAR)
TAR (Predictive Coding) — ключове AI-завдання в e-Discovery. Система навчається на невеликій виборці, розміченій адвокатами, та прогнозує релевантність для решти корпусу:
class DocumentRelevance(BaseModel):
document_id: str
relevance_score: float # 0-1
is_privileged: bool # адвокатська таємниця
is_responsive: bool # відповідає на запит розкриття
key_topics: list[str]
custodians: list[str] # хто бере участь у листуванні
date: date | None
def predict_relevance(
document: str,
seed_set: list[tuple[str, bool]] # (doc, is_relevant) для навчання
) -> DocumentRelevance:
# Active Learning: вибір найбільш інформативних документів для розмітки
...
Виявлення привілейованих документів
Адвокатська таємниця — документи, звільнені від розкриття. AI виявляє:
- Комунікації з зовнішніми адвокатами (за доменом email)
- Запити на юридичну консультацію
- Документи позначені Confidential/Privileged
- Робочий продукт адвоката
Помилка другого роду критична: пропустити привілейований документ → серйозне порушення.
Дані та формати
Типові джерела: Outlook/Exchange (PST), Gmail (mbox), Slack/Teams (JSON API), SharePoint (CSOM), файлові сервери. Конвертація в єдиний формат: Relativity RSMF або кастомний pipeline через Apache Tika.
Масштаб: enterprise e-Discovery — мільйони документів. FAISS ANN-індекс забезпечує пошук по мільйонах векторів за < 100ms.







