GNN for Molecular Modeling and Drug Discovery

We design and deploy artificial intelligence systems: from prototype to production-ready solutions. Our team combines expertise in machine learning, data engineering and MLOps to make AI work not in the lab, but in real business.

8+Years of workmore info 900+Completed projectsmore info 100+In house employeesmore info 19+Partnersmore info

Offered services

Showing 1 of 1 servicesAll 1566 services

Complex

from 1 week to 3 months

FAQ

AI Development Areas

Discuss your AI project

Free consultation — we'll show you how AI can solve your challenge

Get a quote

We'll estimate the budget and timeline for your AI project

AI Solution Development Stages

Latest works

B2B ADVANCE company website development
1212
Development of a web application for FEEDME
1161
Website development for BELFINGROUP
852
Development of an online store for the company FURNORO
1041
B2B Advance company logo design
561
Development of a web application for Enviok
822

Show more works

GNN для молекулярного моделирования в drug discovery

Молекула — это граф: атомы как узлы, химические связи как рёбра. Graph Neural Networks обрабатывают эту структуру нативно, без потери информации о топологии, которая неизбежно теряется при преобразовании в SMILES или Morgan fingerprints.

Почему fingerprints уже недостаточно

Morgan fingerprints (ECFP4/ECFP6) — зрелая техника, но фиксированной длины bit vector теряет информацию о 3D-конформации и дальнодействующих взаимодействиях. На задаче предсказания растворимости (logS) ECFP4 + Random Forest даёт RMSE ~0.85, тогда как хорошо обученный Directed Message Passing Neural Network (D-MPNN, реализация в chemprop) — RMSE ~0.65 на том же бенчмарке MoleculeNet. Разрыв небольшой, но на задачах активности против конкретных мишеней он существенно шире.

Архитектуры GNN для молекул

Message Passing Neural Networks (MPNN)

Базовая парадигма: каждый атом аккумулирует информацию от соседей через T раундов message passing, финальное readout агрегирует атомные эмбеддинги в молекулярный. Chemprop — наиболее используемая реализация в фарме, обучается через directed message passing по связям.

SchNet / DimeNet / PaiNN

Учитывают 3D-координаты атомов (из conformation generation через RDKit или ETKDG). SchNet кодирует расстояния через радиальные базисные функции; DimeNet добавляет угловые взаимодействия. На задачах предсказания квантовых свойств (QM9: энергия HOMO/LUMO, дипольный момент) PaiNN достигает MAE на уровне DFT-калькуляций со скоростью в тысячи раз выше.

Equivariant GNNs (SE(3)-Transformers, EGNN, NequIP)

Архитектуры, инвариантные к вращению и отражению молекулы — важно для корректного предсказания свойств, зависящих от ориентации в пространстве. NequIP показывает state-of-the-art на force field prediction задачах.

Граф белок–лиганд для virtual screening

Взаимодействие лиганда с мишенью моделируется как гетерогенный граф: два типа узлов (атомы лиганда и атомы белка в binding pocket), рёбра двух типов — внутримолекулярные и межмолекулярные. GraphDTA, KIBA/Davis-бенчмарки. На KIBA: Pearson correlation ~0.89 у лучших GNN против ~0.79 у классических docking score.

Практический кейс: предсказание ADMET

ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) — набор из 20+ задач предсказания. Multi-task GNN обучается одновременно на всех задачах, используя shared molecular encoder.

Проблема: неравномерный охват задач данными. hERG cardiotoxicity: ~10k молекул; острая токсичность мыши: ~7k; plasma protein binding: ~3k. При naïve multi-task learning модель "едет" в сторону задач с большими датасетами.

Решение: задачеспецифические learning rate через gradient surgery или PCGrad (Project Conflicting Gradients). Плюс uncertainty-aware обучение: Monte Carlo Dropout для оценки epistemic uncertainty — важно, чтобы модель говорила "не знаю" на out-of-distribution молекулах.

Результаты на ChEMBL-бенчмарке при multi-task D-MPNN:

Задача	AUC-ROC (single-task)	AUC-ROC (multi-task)
hERG inhibition	0.82	0.87
Ames mutagenicity	0.84	0.88
CYP3A4 inhibition	0.79	0.83

Прирост от multi-task — особенно заметен на малых датасетах.

Генерация молекул через GNN

Junction Tree VAE (JT-VAE) — генерирует молекулы через иерархическое декодирование: сначала граф substructure "фрагментов" (кольца, цепи), затем assembly. Гарантирует валидность 100% (в отличие от SMILES-based VAE с ~70%).

Graph Diffusion Models — DiGress и подобные применяют диффузионный процесс в пространстве графов. Генерируют химически разнообразные молекулы с заданными свойствами (property-conditioned generation через classifier-free guidance).

Практика: generation → scoring через быстрый ADMET GNN → molecular dynamics validation для топ-кандидатов через OpenMM или GROMACS. Это замыкает цикл разработки.

Стек

Задача	Инструменты
GNN молекул	PyTorch Geometric, DGL, chemprop
3D молекулы	RDKit (ETKDG), OpenBabel
Equivariant GNN	NequIP, MACE, e3nn
Генерация	JT-VAE, DiGress
MD validation	OpenMM, GROMACS, AmberTools
Хемоинформатика	RDKit, DeepChem, OpenFF
Эксперименты	MLflow, Weights & Biases

Сроки

MVP предсказания свойств (один target, готовый датасет): 6–10 недель. Полная ADMET-платформа с генерацией и валидацией: 6–12 месяцев.