Розробка AI-системи для передбачення властивостей молекул (ADMET)
ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) — сукупність фармакокінетичних властивостей, що визначають судьбу ліку в організмі. ~50% провалів у клінічних випробуваннях — через ADMET проблеми, які можна було передбачити раніше.
Критичні ADMET властивості
Абсорбція
- Водна розчинність: погана розчинність → непостійна біодоступність
- Ліпофільність (logP/logD): визначає проникнення через мембрани, розчинність
- Caco-2 / MDCK проникливість: всмоктування в кишечнику
- P-глікопротеїн (P-gp) вивід: активний вивід із клітин, зменшує біодоступність
- Пероральна біодоступність (F%): яка частина дози досягає системної циркуляції
Розподіл
- Об'єм розподілу (Vd): як розподіляється по тканинам
- Проникливість гемато-енцефального бар'єру (BBB): необхідна для ЦНС ліків, небажана для периферійних
- Зв'язування з білками плазми (PPB): зв'язування з альбуміном, тільки вільний ліку активний
Метаболізм
- CYP450 інгібування (CYP3A4, CYP2D6, CYP2C9, CYP2C19, CYP1A2): уповільнює метаболізм інших ліків → взаємодії
- CYP450 субстрат: які ізоферменти метаболізують сполуку
- Період напіврозпаду (T½): як швидко виводиться з організму
- Гепатотоксичність (DILI): пошкодження печінки
Екскреція
- Ниркова клірансна: швидкість виведення нирками
Токсичність
- hERG інгібування: блокада сердечного K⁺ каналу → подовження QT → потенційно летальна аритмія. Основна причина відкликання ліків
- Ames тест: мутагенність / генотоксичність
- DILI (Drug-Induced Liver Injury): гепатотоксичність
- Шкірна сенсибілізація: контактний дерматит
- Репродуктивна токсичність: тератогенність
Моделі передбачення
Молекулярні відбитки + ML
ECFP4/6 (циркулярні відбитки 1024–2048 бітів) + XGBoost/Random Forest. Швидко, інтерпретовано, хорошо на малих датасетах.
Graph Neural Networks
Молекула як граф → GNN вчиться структурним паттернам. MPNN, AttentiveFP, D-MPNN (chemprop). На більшості TDC бенчмарків GNN перевершує fingerprint+ML.
Multitask Learning
Одна модель передбачує 20+ ADMET властивостей одночасно. Перевага: спільні представлення поліпшують передбачення властивостей з малим датасетом через інформацію з пов'язаних завдань.
from chemprop import args, data, featurizers, models, train
# Chemprop — state-of-the-art для молекулярного ADMET
arguments = [
'--data_path', 'admet_train.csv',
'--dataset_type', 'regression',
'--target_columns', 'solubility logP hERG_inhibition caco2_permeability',
'--smiles_columns', 'smiles',
'--epochs', '50',
'--batch_size', '64',
'--ffn_num_layers', '3',
'--dropout', '0.1',
'--save_dir', 'admet_model',
]
args.parse_train_args(arguments)
train.cross_validate(...)
Quantification невизначеності
ADMET передбачення: знати не тільки значення, але й впевненість моделі. Для молекул поза applicability domain — попередження про ненадійне передбачення.
Методи: Monte Carlo Dropout, Deep Ensembles, Conformal Prediction. Conformal Prediction дає статистично строгі інтервали передбачення.
Датасети
| Завдання | Датасет | Розмір |
|---|---|---|
| Розчинність | ESOL, AqSolDB | 1k–10k |
| logP | ChEMBL | 100k+ |
| Caco-2 | Biopharmaceutics DB | ~1k |
| hERG | BindingDB, ChEMBL | 10k+ |
| DILI | DILIrank | ~1k |
| CYP інгібування | ChEMBL | 10k+ |
| Ames | TDC AMES датасет | ~7k |
Проблема даних: багато біологічних датасетів малі та зашумлені. Transfer learning (попередньо навчання на великому хімічному корпусі → fine-tuning на конкретне завдання) допомагає з малими датасетами.
Applicability Domain
Модель надійна тільки для молекул, подібних до даних навчання. Оцінка AD:
- Tanimoto схожість до найближчих сусідів у наборі навчання
- Leverage hat matrix (Williams plot)
- k-NN відстань у embedding space
При виході за межі AD → явне попередження "low confidence prediction".
Інтеграція: REST API, Jupyter-friendly Python API, KNIME nodes для робочих процесів хіміків. Візуалізація: 2D-карта властивостей з кольоровим кодуванням порушень drug-likeness (Lipinski Rule of 5, Veber rules).







