Реалізація витягування ключових фраз (Keyword/Keyphrase Extraction)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Реалізація витягування ключових фраз (Keyword/Keyphrase Extraction)
Простий
~2-3 дні
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Реалізація вилучення ключових фраз

Ключові фрази—короткі n-грами, що відображають основні теми документа. Застосування широке: індексування, пошук, теґування контенту, автоматичні анотації.

Методи вилучення

Статистичні методи—швидко, без навчання:

  • YAKE (Yet Another Keyword Extractor): враховує позицію слова, колокації, частоту. Працює без корпусу, 5ms/документ
  • RAKE (Rapid Automatic Keyword Extraction): розбивка за стоп-словами, скорингу via co-occurrence
  • TF-IDF: найкращі слова за TF-IDF вагою—ефективно при наявності корпусу для IDF

Граф-based методи:

  • TextRank (аналог PageRank для слів): будує граф co-occurrence, ранжує вузли. Реалізація: gensim, pytextrank

Семантичні методи (найкраща якість):

  • KeyBERT: embedding документа та кандидатів порівнюються через косинусну подібність
from keybert import KeyBERT
kw_model = KeyBERT(model="cointegrated/rubert-tiny2")
keywords = kw_model.extract_keywords(text, keyphrase_ngram_range=(1, 3), top_n=10)

Для російської мови

Статистичні методи працюють гірше без лемматизації. Правильний pipeline: лемматизація (pymorphy3) → YAKE/KeyBERT. KeyBERT з rubert-tiny2 дає хорошу якість при latency ~50ms/документ.

Застосування в production

Типове завдання: теґування 10K статей на день. Оптимальний стек: YAKE для швидкості + KeyBERT для топ-документів. Результати нормалізуються (лемматизація, lowercase, дедупліка ція) та зберігаються у пошуковому індексі (Elasticsearch з полем keywords).