Розробка AI-системи для фармацевтики — Drug Discovery помічник
Розробка нового лікарського засобу займає 10–15 років і коштує $2.6B (DiMasi et al.). AI скорочує цей шлях не через магію, а шляхом зменшення невдалих експериментів через краще передбачення.
Етапи Drug Discovery, де працює AI
Ідентифікація цілі
Виявлення білків або генів, пов'язаних із захворюванням. AI аналізує:
- Omics дані (геноміка, протеоміка, транскриптоміка)
- Добування текстів: мільйони публікацій PubMed — GNN виявляє приховані зв'язки ген-хвороба-лік
- Мережі взаємодії білків
Ідентифікація перших потенційно активних сполук
Пошук кандидатних молекул із бібліотек 10⁶–10⁹ сполук. Завдання: передбачити, які молекули прив'яжуться до цільового білка.
Підходи:
- Virtual screening: молекулярний докінг з ML scoring функцією замість повільного фізичного моделювання
- Generative design: VAE/Diffusion моделі генерують нові молекули de novo з заданими властивостями
- Graph Neural Networks: молекули як молекулярні графи, передбачення активності
Оптимізація лідерів
Перетворення hit-молекули на drug-like кандидата: оптимізація активності, селективності, фармакокінетики. Мультизадачне навчання на комбінованих датасетах ChEMBL, PubChem, ExCAPE.
Молекулярні GNNs
Молекула = граф: атоми (вузли) + хімічні зв'язки (ребра). Ознаки вузлів: атомний номер, заряд, гібридизація, степінь. Ознаки ребер: тип зв'язку, ароматичність, кільцева приналежність.
import torch
from torch_geometric.nn import GCNConv, global_mean_pool
class MolecularGNN(torch.nn.Module):
def __init__(self):
super().__init__()
self.conv1 = GCNConv(in_channels=9, out_channels=64)
self.conv2 = GCNConv(64, 64)
self.conv3 = GCNConv(64, 128)
self.fc1 = torch.nn.Linear(128, 64)
self.fc2 = torch.nn.Linear(64, 1) # передбачення спорідненості до звязування
def forward(self, x, edge_index, batch):
x = F.relu(self.conv1(x, edge_index))
x = F.relu(self.conv2(x, edge_index))
x = F.relu(self.conv3(x, edge_index))
x = global_mean_pool(x, batch)
x = F.relu(self.fc1(x))
return self.conv3(x) # передбачений pIC50
Бенчмарки: QM9 (квантово-хімічні властивості), MoleculeNet, TDC (Therapeutics Data Commons).
ADMET передбачення
Absorption, Distribution, Metabolism, Excretion, Toxicity — понад 50% кандидатів у клінічних випробуваннях не пройшли через ADMET проблеми. Раннє передбачення економить роки.
Передбачувані властивості:
- Пероральна біодоступність (F%)
- Проникність гемато-енцефального бар'єру
- CYP450 інгібування (лікарські взаємодії)
- hERG кардіотоксичність
- Ames тест (генотоксичність)
- Розчинність у воді
Датасет: патентні дані фармкомпаній + публічні (ChEMBL, DrugBank). Моделі: на основі графів (краще для структурних передбачень) + на основі відбитків (Morgan, ECFP + GBM).
Генеративний молекулярний дизайн
REINVENT (AstraZeneca)
RL-базований генератор нових молекул: prior (RNN або Transformer, навчений на ChEMBL) + scoring функція (ADMET, активність) → агент генерує молекули, максимізуючи винагороду.
Diffusion моделі для 3D молекул
DiffSBDD, TargetDiff генерують 3D конформації з урахуванням форми кишені зв'язування. Дизайн ліків "знизу вверх" від форми цілі.
Fragment-based дизайн
Комбінування відомих фрагментів із бажаними властивостями. AI передбачає сумісність фрагментів та синтетичну доступність (Synthetic Accessibility Score).
Практичні результати
- Galunisertib (Eli Lilly): AI скоротив virtual screening з 9 місяців до 4 тижнів
- AlphaFold2: передбачення структур білків → база для structure-based drug design
- Insilico Medicine: перший AI-дизайнований кандидат у Phase II клінічних випробуваннях (2023)
AI не замінює хіміків — він спрямовує експерименти до вищої ймовірності успіху. Скорочення експериментального циклу: 30–50% менше синтезів для пошуку lead compound.







