Реалізація витягування відносин між сутностями (Relation Extraction)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Реалізація витягування відносин між сутностями (Relation Extraction)
Середній
~5 днів
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Реалізація видобування відносин між сутностями

Relation Extraction (RE) визначає тип зв'язку між двома іменованими сутностями в тексті. "Сбербанк" та "Герман Греф" → відношення є_генеральним_директором. Це крок вище NER — від розпізнавання сутностей до розуміння їх взаємозв'язків.

Формальна постановка

На вході: текст + пара сутностей (e1, e2) + їхні типи. На виході: тип відношення з попередньо визначеного набору або NO_RELATION.

Приклад схеми відносин для корпоративних текстів:

  • працює_в(PERSON, ORG)
  • є_дочірною(ORG, ORG)
  • розташована_в(ORG, LOC)
  • учасник_угоди(ORG, ORG, MONEY)
  • призначений_на_посаду(PERSON, ORG, DATE)

Підходи до реалізації

Prompt-based (LLM): найшвидший шлях до робочої системи. Трійка (e1, текст, e2) передається моделі:

У наступному тексті визнач тип відношення між сутностями [Сбербанк] та [Герман Греф].
Доступні типи: працює_в, є_генеральним_директором, заснував, покинув.
Якщо відносин немає — відповідь NO_RELATION.

Текст: {текст}

Fine-tuned BERT: для високого навантаження та фіксованої схеми відносин. Підхід entity-marker: в текст вставляються спеціальні токени [E1]Сбербанк[/E1], класифікація за [CLS] + [E1] + [E2] токенами.

REBEL (Facebook): end-to-end RE без проміжного NER, генерує трійки (субʼєкт, відношення, обʼєкт) безпосередньо.

Distant Supervision

Проблема RE — потрібна розмітка. Distant Supervision дозволяє обійти це: використовується база знань (Wikidata, Freebase), автоматично розмічаються тексти, в яких зустрічаються пари сутностей, що перебувають у відомих відносинах. Шумно (багато помилок), але дозволяє отримати 100K+ прикладів без ручної розмітки.

Метрики

Метрики RE обчислюються суворо: правильно лише якщо правильно визначені обидві сутності, напрямок відношення та тип. Micro F1 по всім відносинам. Типова якість fine-tuned BERT: 70–80% F1 на стандартних датасетах (TACRED, DocRED).