GNN для молекулярного моделирования в drug discovery
Молекула — это граф: атомы как узлы, химические связи как рёбра. Graph Neural Networks обрабатывают эту структуру нативно, без потери информации о топологии, которая неизбежно теряется при преобразовании в SMILES или Morgan fingerprints.
Почему fingerprints уже недостаточно
Morgan fingerprints (ECFP4/ECFP6) — зрелая техника, но фиксированной длины bit vector теряет информацию о 3D-конформации и дальнодействующих взаимодействиях. На задаче предсказания растворимости (logS) ECFP4 + Random Forest даёт RMSE ~0.85, тогда как хорошо обученный Directed Message Passing Neural Network (D-MPNN, реализация в chemprop) — RMSE ~0.65 на том же бенчмарке MoleculeNet. Разрыв небольшой, но на задачах активности против конкретных мишеней он существенно шире.
Архитектуры GNN для молекул
Message Passing Neural Networks (MPNN)
Базовая парадигма: каждый атом аккумулирует информацию от соседей через T раундов message passing, финальное readout агрегирует атомные эмбеддинги в молекулярный. Chemprop — наиболее используемая реализация в фарме, обучается через directed message passing по связям.
SchNet / DimeNet / PaiNN
Учитывают 3D-координаты атомов (из conformation generation через RDKit или ETKDG). SchNet кодирует расстояния через радиальные базисные функции; DimeNet добавляет угловые взаимодействия. На задачах предсказания квантовых свойств (QM9: энергия HOMO/LUMO, дипольный момент) PaiNN достигает MAE на уровне DFT-калькуляций со скоростью в тысячи раз выше.
Equivariant GNNs (SE(3)-Transformers, EGNN, NequIP)
Архитектуры, инвариантные к вращению и отражению молекулы — важно для корректного предсказания свойств, зависящих от ориентации в пространстве. NequIP показывает state-of-the-art на force field prediction задачах.
Граф белок–лиганд для virtual screening
Взаимодействие лиганда с мишенью моделируется как гетерогенный граф: два типа узлов (атомы лиганда и атомы белка в binding pocket), рёбра двух типов — внутримолекулярные и межмолекулярные. GraphDTA, KIBA/Davis-бенчмарки. На KIBA: Pearson correlation ~0.89 у лучших GNN против ~0.79 у классических docking score.
Практический кейс: предсказание ADMET
ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) — набор из 20+ задач предсказания. Multi-task GNN обучается одновременно на всех задачах, используя shared molecular encoder.
Проблема: неравномерный охват задач данными. hERG cardiotoxicity: ~10k молекул; острая токсичность мыши: ~7k; plasma protein binding: ~3k. При naïve multi-task learning модель "едет" в сторону задач с большими датасетами.
Решение: задачеспецифические learning rate через gradient surgery или PCGrad (Project Conflicting Gradients). Плюс uncertainty-aware обучение: Monte Carlo Dropout для оценки epistemic uncertainty — важно, чтобы модель говорила "не знаю" на out-of-distribution молекулах.
Результаты на ChEMBL-бенчмарке при multi-task D-MPNN:
| Задача | AUC-ROC (single-task) | AUC-ROC (multi-task) |
|---|---|---|
| hERG inhibition | 0.82 | 0.87 |
| Ames mutagenicity | 0.84 | 0.88 |
| CYP3A4 inhibition | 0.79 | 0.83 |
Прирост от multi-task — особенно заметен на малых датасетах.
Генерация молекул через GNN
Junction Tree VAE (JT-VAE) — генерирует молекулы через иерархическое декодирование: сначала граф substructure "фрагментов" (кольца, цепи), затем assembly. Гарантирует валидность 100% (в отличие от SMILES-based VAE с ~70%).
Graph Diffusion Models — DiGress и подобные применяют диффузионный процесс в пространстве графов. Генерируют химически разнообразные молекулы с заданными свойствами (property-conditioned generation через classifier-free guidance).
Практика: generation → scoring через быстрый ADMET GNN → molecular dynamics validation для топ-кандидатов через OpenMM или GROMACS. Это замыкает цикл разработки.
Стек
| Задача | Инструменты |
|---|---|
| GNN молекул | PyTorch Geometric, DGL, chemprop |
| 3D молекулы | RDKit (ETKDG), OpenBabel |
| Equivariant GNN | NequIP, MACE, e3nn |
| Генерация | JT-VAE, DiGress |
| MD validation | OpenMM, GROMACS, AmberTools |
| Хемоинформатика | RDKit, DeepChem, OpenFF |
| Эксперименты | MLflow, Weights & Biases |
Сроки
MVP предсказания свойств (один target, готовый датасет): 6–10 недель. Полная ADMET-платформа с генерацией и валидацией: 6–12 месяцев.







