Розробка AI-системи передбачення властивостей молекул (ADMET)

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Розробка AI-системи передбачення властивостей молекул (ADMET)
Складний
від 2 тижнів до 3 місяців
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Розробка AI-системи для передбачення властивостей молекул (ADMET)

ADMET (Absorption, Distribution, Metabolism, Excretion, Toxicity) — сукупність фармакокінетичних властивостей, що визначають судьбу ліку в організмі. ~50% провалів у клінічних випробуваннях — через ADMET проблеми, які можна було передбачити раніше.

Критичні ADMET властивості

Абсорбція

  • Водна розчинність: погана розчинність → непостійна біодоступність
  • Ліпофільність (logP/logD): визначає проникнення через мембрани, розчинність
  • Caco-2 / MDCK проникливість: всмоктування в кишечнику
  • P-глікопротеїн (P-gp) вивід: активний вивід із клітин, зменшує біодоступність
  • Пероральна біодоступність (F%): яка частина дози досягає системної циркуляції

Розподіл

  • Об'єм розподілу (Vd): як розподіляється по тканинам
  • Проникливість гемато-енцефального бар'єру (BBB): необхідна для ЦНС ліків, небажана для периферійних
  • Зв'язування з білками плазми (PPB): зв'язування з альбуміном, тільки вільний ліку активний

Метаболізм

  • CYP450 інгібування (CYP3A4, CYP2D6, CYP2C9, CYP2C19, CYP1A2): уповільнює метаболізм інших ліків → взаємодії
  • CYP450 субстрат: які ізоферменти метаболізують сполуку
  • Період напіврозпаду (T½): як швидко виводиться з організму
  • Гепатотоксичність (DILI): пошкодження печінки

Екскреція

  • Ниркова клірансна: швидкість виведення нирками

Токсичність

  • hERG інгібування: блокада сердечного K⁺ каналу → подовження QT → потенційно летальна аритмія. Основна причина відкликання ліків
  • Ames тест: мутагенність / генотоксичність
  • DILI (Drug-Induced Liver Injury): гепатотоксичність
  • Шкірна сенсибілізація: контактний дерматит
  • Репродуктивна токсичність: тератогенність

Моделі передбачення

Молекулярні відбитки + ML

ECFP4/6 (циркулярні відбитки 1024–2048 бітів) + XGBoost/Random Forest. Швидко, інтерпретовано, хорошо на малих датасетах.

Graph Neural Networks

Молекула як граф → GNN вчиться структурним паттернам. MPNN, AttentiveFP, D-MPNN (chemprop). На більшості TDC бенчмарків GNN перевершує fingerprint+ML.

Multitask Learning

Одна модель передбачує 20+ ADMET властивостей одночасно. Перевага: спільні представлення поліпшують передбачення властивостей з малим датасетом через інформацію з пов'язаних завдань.

from chemprop import args, data, featurizers, models, train

# Chemprop — state-of-the-art для молекулярного ADMET
arguments = [
    '--data_path', 'admet_train.csv',
    '--dataset_type', 'regression',
    '--target_columns', 'solubility logP hERG_inhibition caco2_permeability',
    '--smiles_columns', 'smiles',
    '--epochs', '50',
    '--batch_size', '64',
    '--ffn_num_layers', '3',
    '--dropout', '0.1',
    '--save_dir', 'admet_model',
]
args.parse_train_args(arguments)
train.cross_validate(...)

Quantification невизначеності

ADMET передбачення: знати не тільки значення, але й впевненість моделі. Для молекул поза applicability domain — попередження про ненадійне передбачення.

Методи: Monte Carlo Dropout, Deep Ensembles, Conformal Prediction. Conformal Prediction дає статистично строгі інтервали передбачення.

Датасети

Завдання Датасет Розмір
Розчинність ESOL, AqSolDB 1k–10k
logP ChEMBL 100k+
Caco-2 Biopharmaceutics DB ~1k
hERG BindingDB, ChEMBL 10k+
DILI DILIrank ~1k
CYP інгібування ChEMBL 10k+
Ames TDC AMES датасет ~7k

Проблема даних: багато біологічних датасетів малі та зашумлені. Transfer learning (попередньо навчання на великому хімічному корпусі → fine-tuning на конкретне завдання) допомагає з малими датасетами.

Applicability Domain

Модель надійна тільки для молекул, подібних до даних навчання. Оцінка AD:

  • Tanimoto схожість до найближчих сусідів у наборі навчання
  • Leverage hat matrix (Williams plot)
  • k-NN відстань у embedding space

При виході за межі AD → явне попередження "low confidence prediction".

Інтеграція: REST API, Jupyter-friendly Python API, KNIME nodes для робочих процесів хіміків. Візуалізація: 2D-карта властивостей з кольоровим кодуванням порушень drug-likeness (Lipinski Rule of 5, Veber rules).