Розробка AI-системи прогнозування ризиків захворювань
Прогнозна медицина — перехід від лікування до профілактики. AI-моделі ризику дозволяють втручатися до появи захворювання, коли профілактичні заходи найефективніші та найбільш дешеві.
Завдання прогнозування ризиків
Популяційний скринінг Виявлення пацієнтів високого ризику серед всього прикріпленого населення для активного запрошення на обстеження. Застосування: цукровий діабет 2 типу, серцево-судинні захворювання, рак, хронічна хвороба нирок.
Індивідуальне прогнозування 10-річний ризик серцево-судинної події (Framingham, SCORE2 — класичні моделі проти ML). ML-моделі перевершують класичні risk scores завдяки:
- Нелінійним взаємодіям ознак
- Більшій кількості предикторів
- Навчанню на локальних даних популяції
Прогресія захворювання Пацієнт із ранньою стадією — коли перейде у важку? Діабетик — ризик нефропатії/ретинопатії. Моделі виживання (Cox PH, Random Survival Forest, DeepHit) з time-to-event endpoints.
Джерела даних
Структуровані дані EHR
- Діагнози (коди МКБ-10), процедури (коди процедур)
- Лабораторні дані: глюкоза, HbA1c, ліпіди, ОАК, біохімія
- Рецепти ліків
- Життєво важливі показники з візитів
- Демографія
Геномні дані SNPs (однонуклеотидні поліморфізми) для полігенних risk scores. BRCA1/2 для раку молочної залози, ApoE4 для хвороби Альцгеймера, PCSK9 для серцево-судинних захворювань. Полігенний risk score (PRS) = зважена сума тисяч SNPs. Завдання ML: оптимальне взвішування для конкретної популяції.
Спосіб життя та соціальні фактори Куріння, алкоголь, фізична активність, індекс маси тіла, дієта, психосоціальний стрес, рівень освіти, доступ до охорони здоров'я. З EMR, анкет, носимих пристроїв.
Моделі та валідація
Для табличних даних EHR XGBoost та LightGBM — домінуючі підходи на реальних медичних даних. Переваги: обробка відсутніх значень, інтерпретованість через SHAP, хорошо працює на малих наборах даних.
Для часових рядів (Longitudinal EHR) Моделі на основі Transformer (BERT на медичних кодах: BEHRT, Med-BERT). Пацієнт = послідовність медичних подій у часі. Попередньо навчання на величезних базах EMR → fine-tuning на конкретних завданнях ризику.
Калібрування обов'язкове Risk score "68%" повинен означати рівно 68% ймовірність. Platt scaling або isotonic regression після навчання. Calibration plot (reliability diagram) — обов'язкова метрика в статтях та при валідації.
Валідація моделі ризику
| Метрика | Клінічний сенс |
|---|---|
| AUC-ROC | Дискримінація: розділяє хворих від здорових |
| AUC-PR | При сильному дисбалансі класів (рідкісні події) |
| Brier Score | Загальна точність ймовірнісних передбачень |
| Net Benefit / Decision Curve | Клінічна користь при конкретних порогах рішень |
| NRI, IDI | Поліпшення проти існуючого risk score |
Зовнішня валідація на даних іншої клініки — обов'язкова перед клінічним застосуванням.
Впровадження в популяційне здоров'я
Стратифікація та outreach
Пацієнти стратифіковані за risk score: високий ризик → активний outreach (телефонний дзвінок, запрошення на скринінг, інтенсивний моніторинг). Середній ризик → профілактичні повідомлення. Низький ризик → стандартний режим.
Інтеграція в EMR
Risk score відображається у карті пацієнта при візиті лікаря. Лікар бачить: "10-річний ризик ССЗ: 23% (високий). Основні фактори: артеріальна гіпертензія, дисліпідемія, куріння." SHAP пояснення для конкретного пацієнта.
Повернення вкладу: зменшення госпіталізацій завдяки профілактиці. У популяції 100k людей → виявлення 1500–2000 високоризикових → втручання → профілактика 200–400 госпіталізацій.







