Реалізація видобування відносин між сутностями
Relation Extraction (RE) визначає тип зв'язку між двома іменованими сутностями в тексті. "Сбербанк" та "Герман Греф" → відношення є_генеральним_директором. Це крок вище NER — від розпізнавання сутностей до розуміння їх взаємозв'язків.
Формальна постановка
На вході: текст + пара сутностей (e1, e2) + їхні типи. На виході: тип відношення з попередньо визначеного набору або NO_RELATION.
Приклад схеми відносин для корпоративних текстів:
-
працює_в(PERSON, ORG) -
є_дочірною(ORG, ORG) -
розташована_в(ORG, LOC) -
учасник_угоди(ORG, ORG, MONEY) -
призначений_на_посаду(PERSON, ORG, DATE)
Підходи до реалізації
Prompt-based (LLM): найшвидший шлях до робочої системи. Трійка (e1, текст, e2) передається моделі:
У наступному тексті визнач тип відношення між сутностями [Сбербанк] та [Герман Греф].
Доступні типи: працює_в, є_генеральним_директором, заснував, покинув.
Якщо відносин немає — відповідь NO_RELATION.
Текст: {текст}
Fine-tuned BERT: для високого навантаження та фіксованої схеми відносин. Підхід entity-marker: в текст вставляються спеціальні токени [E1]Сбербанк[/E1], класифікація за [CLS] + [E1] + [E2] токенами.
REBEL (Facebook): end-to-end RE без проміжного NER, генерує трійки (субʼєкт, відношення, обʼєкт) безпосередньо.
Distant Supervision
Проблема RE — потрібна розмітка. Distant Supervision дозволяє обійти це: використовується база знань (Wikidata, Freebase), автоматично розмічаються тексти, в яких зустрічаються пари сутностей, що перебувають у відомих відносинах. Шумно (багато помилок), але дозволяє отримати 100K+ прикладів без ручної розмітки.
Метрики
Метрики RE обчислюються суворо: правильно лише якщо правильно визначені обидві сутності, напрямок відношення та тип. Micro F1 по всім відносинам. Типова якість fine-tuned BERT: 70–80% F1 на стандартних датасетах (TACRED, DocRED).







