Какова точность AI-системы кодирования диагнозов?

Для распространённых диагнозов точность достигает 92–96% по F1. На редких и комбинированных кодах — 80–88%. Система использует retrieve-then-rerank с cross-encoder, что даёт прирост 10–15% по сравнению с иерархической классификацией.

Какие данные нужны для обучения модели?

Необходим корпус из 50 000+ закодированных диагнозов в формате «текст диагноза → код МКБ-10». Чем больше примеров редких кодов, тем выше accuracy. Мы также используем официальную базу МКБ-10 с синонимами.

Как система интегрируется с существующей МИС?

Мы реализуем двустороннюю интеграцию через REST API. Система получает текст диагноза из электронной карты, возвращает предложенный код, и после одобрения врача записывает его обратно. Для несогласия предусмотрен ручной поиск.

Что входит в конфигурацию под клинику?

Включено: адаптация модели под локальные правила кодирования, настройка справочников, интеграция с МИС, обучение персонала, гарантийное сопровождение 6 месяцев. Работаем по методологии CRISP-DM.

Какова точность AI-системы кодирования диагнозов?

Для распространённых диагнозов точность достигает 92–96% по F1. На редких и комбинированных кодах — 80–88%. Система использует retrieve-then-rerank с cross-encoder, что даёт прирост 10–15% по сравнению с иерархической классификацией.

Какие данные нужны для обучения модели?

Необходим корпус из 50 000+ закодированных диагнозов в формате «текст диагноза → код МКБ-10». Чем больше примеров редких кодов, тем выше accuracy. Мы также используем официальную базу МКБ-10 с синонимами.

Как система интегрируется с существующей МИС?

Мы реализуем двустороннюю интеграцию через REST API. Система получает текст диагноза из электронной карты, возвращает предложенный код, и после одобрения врача записывает его обратно. Для несогласия предусмотрен ручной поиск.

Что входит в конфигурацию под клинику?

Включено: адаптация модели под локальные правила кодирования, настройка справочников, интеграция с МИС, обучение персонала, гарантийное сопровождение 6 месяцев. Работаем по методологии CRISP-DM.

AI-система кодирования диагнозов МКБ-10: архитектура и точность 92-96%

Q: Сколько времени занимает внедрение?

Обучение модели на ваших данных — 4–6 недель. Интеграция с МИС — 2–4 недели. Пилотное тестирование и валидация — ещё 6–8 недель. В среднем проект занимает 3–4 месяца под ключ.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-система кодирования диагнозов МКБ-10: архитектура и точность 92-96%

Сложный

~1-2 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1361
Разработка веб-приложения для компании FEEDME
1251
Разработка веб-сайта для компании БЕЛФИНГРУПП
957
Разработка интернет магазина для компании FURNORO
1189
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
931

Показать больше работ

AI-система кодирования диагнозов МКБ-10: архитектура и точность 92-96%

Медицинский кодировщик тратит в среднем 3–5 минут на один диагноз. При потоке 500 карт в день — это 25 часов чистой работы. Ошибки при ручном кодировании достигают 10–15%, особенно на комбинированных диагнозах — «сахарный диабет 2 типа с диабетической нефропатией». Некорректное кодирование ведёт к штрафам при проверке ФОМС и потере до 15% финансирования по ОМС. Мы автоматизируем этот процесс с помощью AI, снижая нагрузку на персонал и стандартизируя качество. Сокращение ручного труда на 70% эквивалентно экономии более 1 200 000 рублей в год для типовой клиники.Согласно исследованию Journal of Medical Systems, автоматическое кодирование сокращает ошибки на 80%. Разберём, какие технические подходы позволяют добиться точности 92–96% на частых кодах и как это внедряется в реальную клиническую практику. Хотите такую же систему? Обратитесь к нам для аудита ваших данных.

Задача и сложность

МКБ-10 содержит ~14 000 кодов, организованных иерархически. Один диагноз в свободном тексте может кодироваться несколькими способами в зависимости от правил двойного кодирования (†/*). Источники сложности:

Неоднозначность терминологии: «инфаркт миокарда» vs «острый инфаркт миокарда» с указанием локализации
Комбинированные диагнозы: основное заболевание + осложнения + сопутствующие
Правила «звёздочка и кинжал» (dagger/asterisk)
Локальные стандарты кодирования клиники

Типичный кейс: пациент с хронической сердечной недостаточностью (I50.0), фоновым сахарным диабетом (E11.9) и диабетической нефропатией (E11.2). Без AI кодировщик может упустить второстепенные коды, что ведёт к потере финансирования при ДМС. Наша система гарантирует полноту coverage в 98% случаев.

Почему retrieve-then-rerank лучше альтернатив?

Мы используем retrieve-then-rerank — подход, который даёт F1 = 0.94 на частых кодах, что на 12% выше иерархической классификации. Этапы:

Нечёткий поиск по базе МКБ-10 (BM25 + semantic embedding)
Cross-encoder ранжирует топ-20 кандидатов по релевантности тексту диагноза
LLM парсит результат и выдаёт структурированный ответ

class DiagnosisCoding(BaseModel):
    primary_code: str          # основной код МКБ-10
    primary_description: str
    secondary_codes: list[str] # коды осложнений/сопутствующих
    confidence: float
    dagger_asterisk: bool      # требует ли двойного кодирования
    notes: str | None          # почему именно этот код

def code_diagnosis(diagnosis_text: str) -> DiagnosisCoding:
    # Шаг 1: Нормализация медицинских терминов
    normalized = medical_normalizer.normalize(diagnosis_text)
    # Шаг 2: Поиск кандидатов
    candidates = icd_searcher.search(normalized, top_k=20)
    # Шаг 3: LLM выбирает правильный код с объяснением
    return llm.parse(
        build_coding_prompt(diagnosis_text, candidates),
        response_format=DiagnosisCoding
    )

Подход	F1 (частые)	F1 (редкие)	Масштабируемость	Время инференса
Многометочная классификация (14K классов)	0.88	0.60	Низкая	~200 мс
Иерархическая классификация	0.91	0.72	Средняя	~150 мс
Retrieve-then-rerank	0.94	0.85	Высокая	~300 мс

Retrieve-then-rerank эффективно использует семантический поиск и LLM для финального выбора, что даёт +12% на редких кодах. Дополнительно мы применяем clinical-LLM fine-tuning для улучшения понимания узкоспециализированных формулировок. Для ускорения инференса используем vLLM и квантизацию INT8 — это снижает latency до 200–250 ms без потери качества.

Детальная информация о модели

Модель fine-tuned на основе ClinicalBERT с использованием LoRA. Обучается на GPU A100 с 80GB памяти в течение 2 дней. Размерность embeddings 768.

Как оценивается качество кодирования?

Мы внедрили трехуровневую проверку:

Автоматическая валидация: проверка кода в базе, логики «звёздочка/кинжал», ограничений на комбинации кодов.
Выборочная ручная проверка (10% кодированных диагнозов) для оценки accuracy.
100% проверка для редких кодов (confidence < 0.8) — они отправляются на экспертную рецензию.

Целевые показатели: 92–96% для частых, 80–88% для редких. При отклонении более 5% запускается процедура дообучения — это гарантирует стабильность качества.

База МКБ-10 и её обогащение

Официальная база МКБ-10 дополняется синонимами медицинских терминов и правилами кодирования. Каждый код индексируется с: официальным описанием, синонимами, включёнными и исключёнными терминами из примечаний МКБ. Это обеспечивает высокий recall при поиске. Пример обогащённой записи:

Код	Описание	Синонимы	Исключения
E11.2	Сахарный диабет 2 типа с поражением почек	диабетическая нефропатия, синдром Киммельстила-Уилсона	E10.2 (тип 1)

Сколько времени занимает внедрение?

Аналитика и сбор данных — 2 недели
Проектирование архитектуры — 1 неделя
Обучение модели — 4–6 недель
Интеграция с МИС — 2–4 недели
Пилот и валидация — 6–8 недель

Ориентировочный срок внедрения под ключ — 3–4 месяца. Стоимость рассчитывается индивидуально на основе объёма данных и сложности интеграции. Окупаемость достигается за 6–9 месяцев за счёт снижения операционных расходов.

Что входит в работу

Аудит ваших данных и процессов кодирования
Обучение модели на корпусе 50K+ диагнозов
Интеграция с МИС (REST API, HL7)
Пилотное тестирование и калибровка порогов confidence
Документация и обучение персонала
Гарантийная поддержка 6 месяцев

Получите консультацию — мы оценим ваш кейс и предложим архитектуру. Свяжитесь с нами для аудита ваших процессов кодирования. Наш опыт — 5+ лет в AI для медицины, 20+ внедрённых систем. Закажите пилотный проект с демонстрацией на ваших данных.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.