Розробка AI-системи віртуального скринінгу молекул (Virtual Screening)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Розробка AI-системи віртуального скринінгу молекул (Virtual Screening)
Складний
від 2 тижнів до 3 місяців
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Розробка AI-системи віртуального скринінгу молекул

Віртуальний скринінг — комп'ютерний відбір кандидатів із великих молекулярних бібліотек перед фізичним синтезом та тестуванням. AI трансформує скринінг мільярдів молекул з неможливого завдання на рутинну операцію.

Методи віртуального скринінгу

Скринінг на основі ліганду (LBVS)

Використовує інформацію про відомі активні молекули. Якщо маємо набір активних молекул проти цілі — шукаємо подібні.

  • Similarity search: молекулярні відбитки (Morgan/ECFP, MACCS) + Tanimoto коефіцієнт. Швидко, масштабується до мільярдів
  • Pharmacophore modeling: виявлення ключових 3D-фармакофорних точок активних молекул → пошук молекул з тим же spatial arrangement
  • QSAR (Quantitative Structure-Activity Relationship): ML-модель передбачує pIC50 із структурних ознак

Скринінг на основі структури (SBVS)

Використовує 3D-структуру цільового білка. Молекули докуються в активний сайт.

Вузьке місце класичного SBVS: докінг 1 молекули займає секунди → 1 млрд молекул = 30 років CPU. AI рішення:

  • Surrogate ML-моделі: швидкий ML-скоринг (мілісекунди) замінює докінг як pre-filter
  • Neural Network Potentials для скорингу: більш точна оцінка зв'язування
  • Ultra-large scale docking: Glide SP, DOCK6 оптимізовані для 10⁹ масштабів при правильній інфраструктурі

Ultra-Large Library Screening

Enamine REAL Space: 36 мільярдів синтетично доступних молекул. Як ефективно скринувати?

Молекулярні embeddings

Навчання кодератора (Transformer або GNN) для компактного векторного представлення молекул. Пошук найближчих сусідів у embedding space мілісекундах. FAISS (Facebook AI Similarity Search) для індексування мільярдів векторів.

Генеративний скринінг (Make-on-Demand)

Замість скринінгу готової бібліотеки — генерація нових молекул з потрібними властивостями в просторі синтетично доступних структур. Reinvent, SAFE (IUPAC), Synthetically Accessible Drug Space.

Ієрархічне звуження (Funnel Approach)

Billion-scale бібліотека
    → Fast ML pre-filter (Tanimoto/embedding): 10⁹ → 10⁶
    → QSAR активність фільтр: 10⁶ → 10⁵
    → Fast docking: 10⁵ → 10⁴
    → Accurate docking (Glide XP): 10⁴ → 10³
    → FEP розрахунок: 10³ → 100
    → Синтез & експериментальна валідація: ~50

Кожний рівень: повільніший, але точніший метод. Throughput кожного рівня підобраний до пропускної спроможності наступного.

Active Learning для скринінгу

Традиційний VS: випадковий відбір для тестування. Active Learning: ML-модель вибирає, які молекули найбільш інформативні для наступної ітерації експериментів.

Цикл:

  1. Ініціальний датасет (1000 молекул з виміряною активністю)
  2. Навчання surrogate моделі
  3. Acquisition function вибирає наступні 100 молекул (Expected Improvement, UCB)
  4. Синтез + тест
  5. Повторити

Скорочення необхідних синтезів: у 5–20 разів для знаходження активних хітів порівняно з випадковим скринінгом.

Метрики ефективності скринінгу

Метрика Опис
Enrichment Factor (EF) У скільки разів більше активних молекул у топ-X%, ніж у випадковому виборі
AUC (ROC) Дискримінація активних / неактивних
BEDROC Зважена метрика з упором на top hits
Hit Rate % активних серед синтезованих кандидатів

Мета: EF@1% > 50 (у топ 1% молекул у 50 разів більше активних, ніж у випадковому виборі).

Інфраструктура для billion-scale скринінгу: GPU-кластер (8–32 A100), distributed inference з Ray або Dask, object storage для молекулярних даних. Повний скринінг 1B молекул: 24–72 години залежно від глибини аналізу.