Які типи сутностей підтримуються в базовій NER-моделі?

Базова модель (CoNLL-2003) розмічає персони (PER), організації (ORG), локації (LOC) та інше (MISC). Цього часто недостатньо для бізнесу, тому ми донавчаємо модель під вашу предметну область: фінанси, медицину, юриспруденцію або логістику.

Який інструмент кращий для NER на російській мові?

Для базових завдань — natasha: легковаговик, працює «з коробки». Для production з високою точністю — spaCy з російською моделлю ru_core_news_lg. Якщо потрібна максимальна точність на складних текстах — BERT-моделі (DeepPavlov/rubert-base-cased-ner). Ми підбираємо стек під ваші дані та вимоги до латентності.

Скільки розмічених прикладів потрібно для fine-tuning?

Рекомендуємо мінімум 200–500 прикладів на кожен кастомний тип сутності. Для стабільної якості (F1 > 90%) потрібно від 1000 прикладів на тип. Розмітку ведемо в Label Studio або Prodigy, контролюємо якість через IAA (inter-annotator agreement).

Яка метрика використовується для оцінки NER?

Основна метрика — Entity-level F1 strict. Це означає, що сутність вважається розпізнаною правильно лише при точному збігу меж span та типу. Partial match (перетин) не зараховується. Типові значення: PER — 95–97%, ORG — 88–93%, LOC — 90–95%, кастомні — 80–90% після fine-tuning.

Чи входить підтримка моделі після деплою?

Так. Ми передаємо доступ до навченої моделі, код пайплайну, документацію з перенавчання та супровідну інструкцію. Надаємо гарантійну підтримку на 3 місяці: виправляємо баги, допомагаємо з до-розміткою при необхідності.

Які типи сутностей підтримуються в базовій NER-моделі?

Базова модель (CoNLL-2003) розмічає персони (PER), організації (ORG), локації (LOC) та інше (MISC). Цього часто недостатньо для бізнесу, тому ми донавчаємо модель під вашу предметну область: фінанси, медицину, юриспруденцію або логістику.

Який інструмент кращий для NER на російській мові?

Для базових завдань — natasha: легковаговик, працює «з коробки». Для production з високою точністю — spaCy з російською моделлю ru_core_news_lg. Якщо потрібна максимальна точність на складних текстах — BERT-моделі (DeepPavlov/rubert-base-cased-ner). Ми підбираємо стек під ваші дані та вимоги до латентності.

Скільки розмічених прикладів потрібно для fine-tuning?

Рекомендуємо мінімум 200–500 прикладів на кожен кастомний тип сутності. Для стабільної якості (F1 > 90%) потрібно від 1000 прикладів на тип. Розмітку ведемо в Label Studio або Prodigy, контролюємо якість через IAA (inter-annotator agreement).

Яка метрика використовується для оцінки NER?

Основна метрика — Entity-level F1 strict. Це означає, що сутність вважається розпізнаною правильно лише при точному збігу меж span та типу. Partial match (перетин) не зараховується. Типові значення: PER — 95–97%, ORG — 88–93%, LOC — 90–95%, кастомні — 80–90% після fine-tuning.

Чи входить підтримка моделі після деплою?

Так. Ми передаємо доступ до навченої моделі, код пайплайну, документацію з перенавчання та супровідну інструкцію. Надаємо гарантійну підтримку на 3 місяці: виправляємо баги, допомагаємо з до-розміткою при необхідності.

Виділення іменованих сутностей (NER): кастомні рішення для бізнесу

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Виділення іменованих сутностей (NER): кастомні рішення для бізнесу

Середній

~3-5 днів

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Уявіть: ви аналізуєте медичні статті, де «Аспірин» — не бренд, а діюча речовина; «ІНН 7701234567» — не просто число, а ідентифікатор. Без кастомного NER вся аналітика перетворюється на ручну працю. Стандартні моделі (CoNLL-2003) розпізнають лише персони, організації, локації — цього явно недостатньо для доменної лексики. Типові бізнес-завдання: вилучення фінансових показників зі звітів, ідентифікація ліків у рецептах, розпізнавання юридичних сутностей у договорах. Кожна вимагає індивідуального підходу.

Ми реалізуємо NER під ключ: від вибору архітектури до деплою у вашу інфраструктуру. Розберемо, як налаштувати розпізнавання сутностей російською мовою, порівняємо інструменти та покажемо, чому донавчання окупається. Витрати на розмітку стартують від 50 000 ₽, а економія від автоматизації сягає 300 000 ₽ на рік.

Що таке NER? Named Entity Recognition — задача вилучення іменованих сутностей з тексту.

NER (Named Entity Recognition) — це процес ідентифікації та класифікації іменованих сутностей (персони, організації, локації, дати тощо) у неструктурованому тексті. Без кастомної моделі стандартні рішення дають низьку точність на доменній лексиці.

Стандартні типи сутностей та їх розширення

Базовий набір (CoNLL-2003): PER (персони), ORG (організації), LOC (місцезнаходження), MISC (інше). Для бізнесу цього мало. Типові кастомні типи:

Фінанси: MONEY, PERCENT, DATE, TICKER, FINANCIAL_INSTRUMENT
Медицина: DISEASE, DRUG, DOSAGE, PROCEDURE, ANATOMY
Юриспруденція: LAW, COURT, CASE_NUMBER, LEGAL_ENTITY
Логістика: ADDRESS, POSTAL_CODE, VEHICLE_ID, CARGO

Як вибрати інструмент для NER російською мовою?

natasha — оптимальний вибір для швидкого старту:

from natasha import Segmenter, MorphVocab, NewsEmbedding, NewsNERTagger, Doc

segmenter = Segmenter()
emb = NewsEmbedding()
ner_tagger = NewsNERTagger(emb)

doc = Doc("Газпром подписал контракт с немецкой компанией Wintershall в Берлине.")
doc.segment(segmenter)
doc.tag_ner(ner_tagger)
# [(Газпром, ORG), (Wintershall, ORG), (Берлине, LOC)]

spaCy (ru_core_news_lg): баланс швидкості та якості, легко вбудовується в production-пайплайни.

BERT-based (DeepPavlov, HuggingFace): максимальна точність на складних текстах, але вища latency.

Порівняємо інструменти в таблиці:

Інструмент	Точність (F1)	Швидкість (ms/реч.)	Кастомні сутності
natasha	85–90%	~2 ms	ні (тільки базові)
spaCy	88–93%	~5 ms	донавчання через prodigy
ruBERT	92–97%	~30 ms (CPU)	fine-tuning через HF

Чому fine-tuning покращує точність?

Fine-tuning на вашому корпусі прибирає омонімію та піднімає F1 на 10–15%. Готова модель плутає «Яблоко» (фрукт) та «Яблоко» (компанія). Після донавчання модель враховує контекст, що критично для доменної лексики. Процес включає розмітку, IOB2-форматування та навчання через HuggingFace.

Сценарій	F1 до fine-tuning	F1 після fine-tuning
Медичні терміни	75%	91%
Юридичні сутності	68%	88%

Fine-tuning для кастомних сутностей

Процес:

Розмітка: Prodigy або Label Studio. Мінімум 200–500 прикладів на тип сутності.
Формат: IOB2 (BIO-tagging) — стандарт для NER.
Навчання: HuggingFace TokenClassification з попередньо навченим RuBERT.

from transformers import AutoModelForTokenClassification, TrainingArguments
model = AutoModelForTokenClassification.from_pretrained(
    "DeepPavlov/rubert-base-cased",
    num_labels=len(label_list),
    id2label=id2label,
    label2id=label2id
)

Оцінка якості NER

Entity-level F1 (strict) — основна метрика. «Strict» означає: правильний тип І правильні межі span. Partial match вважається помилкою.

Типові показники на російських текстах:

PER: F1 95–97% (легко розпізнавані патерни)
ORG: F1 88–93% (багато скорочень, абревіатур)
LOC: F1 90–95%
Кастомні доменні сутності: 80–90% після fine-tuning на 1K+ прикладах

Як ми реалізуємо NER під ваш домен?

Наш підхід — інженерний, без чорних ящиків. Етапи роботи:

Аналіз даних: вивчаємо ваші тексти, визначаємо цільові сутності, оцінюємо складність (вкладеність, омонімія, рознесені сутності).
Розмітка та аугментація: готуємо корпус у IOB2, контролюємо якість через крос-валідацію розмітників.
Вибір архітектури: порівнюємо natasha/spaCy/BERT на вашому корпусі, вибираємо за F1 та latency.
Fine-tuning та тестування: навчаємо модель, домагаємося F1 > 90% за цільовими типами.
Деплой: упаковуємо в ONNX (CPU) або TorchServe (GPU), latency — від 5 до 30 мс на речення.
Передача: документація, код пайплайну, доступ до моделі, навчання вашої команди.

Що входить у роботу

У результаті ви отримуєте:

Навчену модель з кастомними сутностями
Код інференсу (Python, Docker-образ)
Інструкцію з перенавчання на нових даних
Гарантійну підтримку на 3 місяці

Для кожного проекту ми готуємо guideline для розмітників, проводимо тестовий раунд з контролем якості IAA (inter-annotator agreement > 0.9). Після затвердження схеми починаємо повну розмітку.

Складні випадки

Вкладені сутності: «Міністерство фінансів Росії» — ORG + LOC. Більшість моделей не підтримують вкладеність; використовуємо Span-BERT або biaffine NER.
Рознесені сутності: «ТОВ… (далі — Компанія)» — потрібен модуль кореференції.
Омонімія: вирішується контекстом (трансформери справляються краще CRF).

Деплой та надійність

Ми гарантуємо стабільну роботу моделі під навантаженням. Досвід — понад 50 проектів з NLP, сертифіковані інженери PyTorch. Зв'яжіться з нами для оцінки вашого завдання — надішлемо план робіт та терміни (від 2 до 6 тижнів залежно від обсягу розмітки).

Замовте розробку NER-системи під ваш домен. Отримайте консультацію щодо вибору інструментів та оцінки необхідного обсягу даних. Для попередньої оцінки вашого кейсу напишіть нам — ми підготуємо детальний план робіт.

NLP розробка: чому accuracy не підходить для рідкісних класів?

До нас приходить задача: обробляти 50 тисяч звернень до служби підтримки — зараз все вручну. Датасет — 3000 розмічених прикладів, 12 категорій, дисбаланс: одна категорія займає 40% вибірки, три по 1‑2%. Baseline accuracy — 78%. Звучить непогано, поки не дивишся на recall по рідкісних класах: 0.31, 0.44, 0.28. Саме ці класи — скарги та загрози відтоку — найважливіші для бізнесу.

Це типовий проект NLP розробки. Проблема не в алгоритмі, а в тому, що accuracy — не та метрика. Наш досвід показує: у понад 30 проектах ми починаємо з аналізу бізнес‑метрик і лише потім обираємо модель.

Чому accuracy — не та метрика для рідкісних класів?

Accuracy ігнорує дисбаланс. Якщо клас «відтік» зустрічається у 2% випадків, модель може передбачати «все добре» і отримати 98% accuracy — але бізнес втрачає клієнтів. Рішення: F1 macro (усереднення за всіма класами) або weighted F1. Для NER — strict entity F1 (лише точні збіги). Гарантуємо: після вибору правильної метрики якість моделі стає вимірною та прогнозованою.

Класифікація тексту: від BERT до дистиляції

BERT-подібні моделі — стандарт для класифікації. ruBERT-base або ruBERT-large від DeepPavlov для російської мови. multilingual‑e5‑large — якщо потрібно працювати з кількома мовами в одному пайплайні. XLM‑RoBERTa‑large — сильний multilingual backbone.

Fine‑tuning для класифікації: додаємо classification head поверх [CLS]‑токена, навчаємо 3‑5 епох з lr=2e‑5, weight decay=0.01. При дисбалансі — weighted CrossEntropyLoss або focal loss з gamma=2.0. Пишіть — покажемо code snippet.

Кейс з дисбалансом. Датасет — 3000 прикладів, дисбаланс 1:20. Рішення: class_weight через sklearn + CrossEntropyLoss. Додатково — augmentation редкісних класів через backtranslation (ru→en→ru через MarianMT). Recall по рідкісних класах виріс з 0.31 до 0.67 при незначному падінні accuracy (76%→74%). Повна NLP розробка під ключ зайняла 3 тижні.

Дистиляція для production. BERT‑large дає F1 0.89, але inference на CPU — 180ms. Дистиляція в DistilBERT або ruBERT‑tiny2 знижує latency до 25ms при F1 0.84. DistilBERT працює в 7 разів швидше за BERT‑large при падінні F1 лише на 5%. Експорт в ONNX Runtime з int8 quantization дає додатковий 1.5‑2x. Оцінимо проект — розрахуємо економію на інфраструктурі.

Модель	F1 macro	Latency (CPU)	Розмір
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

Як вибрати модель класифікації під ваш датасет?

Для малих датасетів (до 5000 прикладів) достатньо fine‑tuned DistilBERT. Якщо потрібна багатомовність — XLM‑RoBERTa. При жорстких обмеженнях latency — дистильована модель з ONNX Runtime. Ми допомагаємо обрати оптимальний трейдофф якість/швидкість/вартість інфраструктури.

NER: розпізнавання іменованих сутностей

NER — вилучення персон, організацій, локацій, дат, сум, номерів документів. Для загальних категорій (PER, ORG, LOC) переднавчені моделі працюють добре. Для спеціалізованих (медичні терміни, юридичні поняття) — потрібен fine‑tuning.

Розмітка даних. Основна вартість NER‑проекту. Для якісної моделі — 500‑2000 розмічених речень на кожен тип сутності. Інструменти: Label Studio (open source) або Prodigy (від творців spaCy). Формат IOB2 — стандарт.

Архітектура. Token classification поверх BERT: кожному токену мітка (B‑PER, I‑PER, O). spaCy 3.x з transformer pipeline — зручний production‑вибір.

Вкладені сутності. Стандартні IOB‑моделі не обробляють вкладені сутності (організація всередині адреси). Для таких задач — span‑based NER: SpanBERT або SpERT. Складніше, але правильно.

Постобробка обов’язкова. Модель передбачає токени — потрібні нормалізовані сутності. Дата — dateparser. Суми — regex + валідація. Імена — дедуплікація через rapidfuzz. Входить у нашу стандартну поставку.

Sentiment Analysis та opinion mining

Бінарна класифікація positive/negative працює з BERT з коробки. Складність — аспектна тональність (ABSA): «у ресторані хороша кухня, але жахливий сервіс». Для ABSA: aspect extraction (NER) + sentiment за кожним аспектом. Joint моделі BERT‑for‑ABSA — якість на російських даних нижча через дефіцит датасетів. RuSentiment, SentiRuEval — основні ресурси.

Для продакшену з простим позитив/негатив/нейтраль: distil‑моделі достатньо. Три класи, balanced датасет, 2000+ прикладів — F1 macro 0.82‑0.87 за 1‑2 дні.

Сумарізація тексту

Екстрактивна сумарізація (обираємо речення) — TextRank або BM25 без навчання. Швидко, не галюцинує. Добре для довгих документів.

Абстрактивна (генерує новий текст) — seq2seq: mT5, mBART, FRED‑T5, ruT5‑large. Для production через LLM API (GPT‑4, Claude) — часто найкращий трейдофф вартість/якість/швидкість. Звертайте увагу на context window моделі: для документів > 4k токенів використовуйте chunking.

Ембеддинги: векторні представлення тексту

Ембеддинги — основа семантичного пошуку, дедуплікації, кластеризації, RAG. Якість критично впливає на downstream задачі.

Моделі. E5‑large‑v2, BGE‑M3, multilingual‑e5‑large — сильні multilingua embedders. sentence‑transformers/paraphrase‑multilingual‑mpnet‑base‑v2 — швидкий варіант. Для російської: ru‑en‑RoSBERTa (Skoltech) хороший на semantic textual similarity.

Як оцінити якість ембеддингів? MTEB benchmark — стандарт. Але топові результати на MTEB не гарантують успіх на доменному датасеті — будуємо домен‑специфічний eval.

Fine‑tuning ембеддингів. Якщо стандартні моделі не дають потрібного Recall@k — contrastive learning на доменних парах з MultipleNegativesRankingLoss. 500‑2000 пар, 1‑3 епохи — 5‑15% приріст Recall@k.

Розмірність та зберігання. E5‑large: 1024 dim, float32 — 4KB на вектор. При 10M документів — 40GB. INT8 quantization знижує до 10GB. FAISS IVF_PQ — ще компактніше, але з втратами. Входить у наші рекомендації по деплою.

Вилучення інформації

Структуроване вилучення — одна з частих задач. Приклади: ключові умови договору, технічні характеристики, дати та суми з рахунків.

Regex + rule-based. Для ІПН, ЄДРПОУ, сум, дат — надійніше нейромережі. Не потребує даних.
NER + постобробка. Для варіативних форматів.
LLM з structured output. GPT‑4 / Claude з JSON schema — для складних документів. Вартість: залежить від обсягу документів. Для 10k+ документів/день — рахуємо економіку.

Гарантуємо гібрид: regex/NER для типових полів + LLM для edge cases. Сертифікат довіри: 5 років на ринку, >30 проектів.

Етапи роботи

Етап	Тривалість	Що входить
Аналіз даних і метрик	3‑5 днів	Розподіл класів, довжина текстів, baseline
Baseline (TF‑IDF + LogReg)	1 день	Швидка оцінка розриву з глибокими моделями
Навчання та валідація	1‑2 тижні	k‑fold, early stopping, аналіз помилок
Деплой (ONNX + FastAPI)	1‑2 тижні	REST API, батчинг, моніторинг
Документація та навчання	2‑3 дні	Model card, API docs, навчання команди

Прототип на існуючих даних — 1‑3 тижні. Production‑система з CI/CD — 1.5‑2.5 місяця. Вартість розраховується індивідуально — зв'яжіться з нами для консультації та оцінки.

Що входить у роботу

Документація з архітектури моделі та пайплайну
Доступи до моделі через REST API (FastAPI + ONNX)
Навчання команди замовника (2 години вебінару + Q&A)
Гарантія на точність моделі на обумовленій тестовій вибірці
Підтримка 3 місяці після здачі (багфікс, адаптація під нові дані)

Наш досвід

Понад 5 років у NLP, 30+ проектів від класифікації до RAG‑систем. Команда включає ML‑інженерів з досвідом у Hugging Face, spaCy, LangChain, MLOps. Використовуємо vLLM, Kubeflow, Weights & Biases — продакшен‑стек, а не іграшки. Замовте консультацію — оцінимо проект за 2 дні.