Розробка AI-системи молекулярного моделювання для розробки ліків
Молекулярне моделювання — обчислювальне передбачення поведінки молекул. AI замінює або доповнює дорогі квантово-хімічні розрахунки, робить високоточне моделювання масштабованим.
Завдання молекулярного моделювання
Передбачення структури білка
AlphaFold2 (DeepMind) революціонізував цю область: точність передбачення 3D-структури білка від амінокислотної послідовності наблизилася до експериментальної (рентгенокристалографія, крио-EM). База AlphaFold: 200M+ передбачених структур.
Для drug discovery: відома 3D-структура цільового білка → structure-based drug design → віртуальний докінг нових молекул.
Молекулярний докінг
Передбачення позиції та орієнтації ліганду в кишені зв'язування білка, + оцінка спорідненості зв'язування. Класичні методи (AutoDock Vina, Glide) повільні для скринінгу мільйонів молекул.
ML-прискорення:
- Neural Network Scoring Functions: заміна фізичних функцій ML-моделлю для швидкої оцінки пози
- Equivariant Neural Networks (SE(3)-Transformer, DiffDock): пряме передбачення пози ліганду без пошуку докінгу
DiffDock (MIT, 2022): точність порівнянна з AutoDock при швидкості в 1000x швидше. Success rate ≤2Å RMSD: 38% проти 21% baseline.
Молекулярна динаміка (MD)
Симуляція руху атомів у часі (фемтосекунди–мікросекунди). Традиційно: дні/тижні CPU-часу для наносекундних симуляцій.
Neural Network Potentials (NNP):
- ANI, NequIP, MACE навчаються апроксимувати DFT-розрахунки при швидкості в 100–1000x швидше
- Точність: близька до DFT/B3LYP для органічних молекул
- Масштабованість: системи в мільйони атомів проти тисяч у квантових методах
Free Energy Perturbation (FEP) з ML
Обчислення різниці вільної енергії зв'язування між двома ліган дами — ключова метрика lead optimization. Традиційна FEP: дні розрахунків. ML-enhanced FEP (RBFE-ML): прискорення при збереженні точності.
Генеративний дизайн через дифузійні моделі
Structure-Based Drug Design
DiffSBDD, Pocket2Mol: отримують 3D-структуру кишені білка → генерують 3D-молекули, комплементарні формі кишені та хімічним властивостям. Без потреби у віртуальному скринінгу готових бібліотек — відразу нові структури.
TargetDiff
Умовна генерація: цільовий білок → diffusion model → нові drug-like молекули. 2023: конкурує з найкращими methods structure-based design.
Квантова хімія + ML
Δ-machine Learning
Швидкий, але менш точний метод (GFN2-xTB) + ML-корекція, навчена передбачати різницю з точним методом (CCSD(T)). Результат: CCSD(T) точність при швидкості xTB. Застосування: швидкого отримання точних молекулярних енергій та властивостей.
Property Prediction
Передбачення квантово-хімічних властивостей із 2D-структури (SMILES):
- Дипольний момент, поляризованість
- HOMO-LUMO gap (фотокаталізатори, органічна електроніка)
- Розчинність, водна розчинність
- Реакційна здатність (pKa, logP)
Датасети: QM9 (134k молекул), QMugs, 3D-PBQC.
Практичний стек
Молекулярне представлення: RDKit, Open Babel (SMILES, MOL, SDF)
3D конформери: RDKit ETKDG, ETKDGv3
Докінг: AutoDock Vina, Glide (Schrödinger), DiffDock
MD: GROMACS, AMBER, OpenMM + NNP інтеграція
GNN фреймворки: PyTorch Geometric, DGL-LifeSci
AlphaFold: локальне розгортання на A100 (мінімум 40GB VRAM)
Візуалізація: PyMOL, UCSF Chimera, 3Dmol.js (web)
Хронограма розробки AI-платформи молекулярного моделювання: 4–8 місяців для конкретного завдання (virtual screening або generative design), включаючи навчання на власних даних компанії.







