Розробка AI-системи віртуального скринінгу молекул
Віртуальний скринінг — комп'ютерний відбір кандидатів із великих молекулярних бібліотек перед фізичним синтезом та тестуванням. AI трансформує скринінг мільярдів молекул з неможливого завдання на рутинну операцію.
Методи віртуального скринінгу
Скринінг на основі ліганду (LBVS)
Використовує інформацію про відомі активні молекули. Якщо маємо набір активних молекул проти цілі — шукаємо подібні.
- Similarity search: молекулярні відбитки (Morgan/ECFP, MACCS) + Tanimoto коефіцієнт. Швидко, масштабується до мільярдів
- Pharmacophore modeling: виявлення ключових 3D-фармакофорних точок активних молекул → пошук молекул з тим же spatial arrangement
- QSAR (Quantitative Structure-Activity Relationship): ML-модель передбачує pIC50 із структурних ознак
Скринінг на основі структури (SBVS)
Використовує 3D-структуру цільового білка. Молекули докуються в активний сайт.
Вузьке місце класичного SBVS: докінг 1 молекули займає секунди → 1 млрд молекул = 30 років CPU. AI рішення:
- Surrogate ML-моделі: швидкий ML-скоринг (мілісекунди) замінює докінг як pre-filter
- Neural Network Potentials для скорингу: більш точна оцінка зв'язування
- Ultra-large scale docking: Glide SP, DOCK6 оптимізовані для 10⁹ масштабів при правильній інфраструктурі
Ultra-Large Library Screening
Enamine REAL Space: 36 мільярдів синтетично доступних молекул. Як ефективно скринувати?
Молекулярні embeddings
Навчання кодератора (Transformer або GNN) для компактного векторного представлення молекул. Пошук найближчих сусідів у embedding space мілісекундах. FAISS (Facebook AI Similarity Search) для індексування мільярдів векторів.
Генеративний скринінг (Make-on-Demand)
Замість скринінгу готової бібліотеки — генерація нових молекул з потрібними властивостями в просторі синтетично доступних структур. Reinvent, SAFE (IUPAC), Synthetically Accessible Drug Space.
Ієрархічне звуження (Funnel Approach)
Billion-scale бібліотека
→ Fast ML pre-filter (Tanimoto/embedding): 10⁹ → 10⁶
→ QSAR активність фільтр: 10⁶ → 10⁵
→ Fast docking: 10⁵ → 10⁴
→ Accurate docking (Glide XP): 10⁴ → 10³
→ FEP розрахунок: 10³ → 100
→ Синтез & експериментальна валідація: ~50
Кожний рівень: повільніший, але точніший метод. Throughput кожного рівня підобраний до пропускної спроможності наступного.
Active Learning для скринінгу
Традиційний VS: випадковий відбір для тестування. Active Learning: ML-модель вибирає, які молекули найбільш інформативні для наступної ітерації експериментів.
Цикл:
- Ініціальний датасет (1000 молекул з виміряною активністю)
- Навчання surrogate моделі
- Acquisition function вибирає наступні 100 молекул (Expected Improvement, UCB)
- Синтез + тест
- Повторити
Скорочення необхідних синтезів: у 5–20 разів для знаходження активних хітів порівняно з випадковим скринінгом.
Метрики ефективності скринінгу
| Метрика | Опис |
|---|---|
| Enrichment Factor (EF) | У скільки разів більше активних молекул у топ-X%, ніж у випадковому виборі |
| AUC (ROC) | Дискримінація активних / неактивних |
| BEDROC | Зважена метрика з упором на top hits |
| Hit Rate | % активних серед синтезованих кандидатів |
Мета: EF@1% > 50 (у топ 1% молекул у 50 разів більше активних, ніж у випадковому виборі).
Інфраструктура для billion-scale скринінгу: GPU-кластер (8–32 A100), distributed inference з Ray або Dask, object storage для молекулярних даних. Повний скринінг 1B молекул: 24–72 години залежно від глибини аналізу.







