Чем dynamic batching отличается от статического?

Dynamic batching автоматически группирует запросы, пришедшие за короткое время, в один батч, в отличие от статического, где размер батча фиксирован. Это позволяет эффективнее использовать GPU при переменной нагрузке и избежать простоев.

Какие фреймворки поддерживают continuous batching?

vLLM, TensorRT-LLM, llama.cpp и TGI. vLLM — самый популярный с открытым исходным кодом, он включает встроенный continuous batching и не требует дополнительной настройки.

Какой batch size оптимален для A100 80GB?

Зависит от модели. Для Llama-3-8B оптимально 64–128, для Llama-3-70B — 16–32. Рекомендуем провести нагрузочное тестирование с вашими данными, чтобы найти точку баланса throughput/latency.

Влияет ли dynamic batching на латентность отдельных запросов?

Да, запросы могут ожидать накопления батча (до 50 мс). Однако прирост throughput в 10–30 раз компенсирует это. При правильной настройке p99 latency увеличивается незначительно.

Сколько времени занимает настройка dynamic batching под конкретный проект?

Обычно от 2 до 10 рабочих дней в зависимости от сложности инфраструктуры и модели. Точные сроки определяем после аудита текущей конфигурации.

Чем dynamic batching отличается от статического?

Dynamic batching автоматически группирует запросы, пришедшие за короткое время, в один батч, в отличие от статического, где размер батча фиксирован. Это позволяет эффективнее использовать GPU при переменной нагрузке и избежать простоев.

Какие фреймворки поддерживают continuous batching?

vLLM, TensorRT-LLM, llama.cpp и TGI. vLLM — самый популярный с открытым исходным кодом, он включает встроенный continuous batching и не требует дополнительной настройки.

Какой batch size оптимален для A100 80GB?

Зависит от модели. Для Llama-3-8B оптимально 64–128, для Llama-3-70B — 16–32. Рекомендуем провести нагрузочное тестирование с вашими данными, чтобы найти точку баланса throughput/latency.

Влияет ли dynamic batching на латентность отдельных запросов?

Да, запросы могут ожидать накопления батча (до 50 мс). Однако прирост throughput в 10–30 раз компенсирует это. При правильной настройке p99 latency увеличивается незначительно.

Сколько времени занимает настройка dynamic batching под конкретный проект?

Обычно от 2 до 10 рабочих дней в зависимости от сложности инфраструктуры и модели. Точные сроки определяем после аудита текущей конфигурации.

Настройка динамического батчинга для LLM: ускорение GPU

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Настройка динамического батчинга для LLM: ускорение GPU

Средний

от 1 дня до 3 дней

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1348
Разработка веб-приложения для компании FEEDME
1247
Разработка веб-сайта для компании БЕЛФИНГРУПП
949
Разработка интернет магазина для компании FURNORO
1183
Разработка логотипа компании B2B Advance
642
Разработка веб-приложения для компании Enviok
921

Показать больше работ

Если ваш LLM-сервис испытывает высокую нагрузку при большом числе одновременных пользователей, каждый запрос обрабатывается последовательно — без батчинга throughput падает в разы, а latency растёт до неприемлемых значений. Мы настраиваем dynamic batching, чтобы GPU работала на 80%+ утилизации, а не на 5%. Наши инженеры имеют более 4 лет опыта в продакшене LLM и реализовали более 20 проектов на vLLM, TensorRT-LLM и кастомных решениях. Dynamic batching объединяет несколько параллельных запросов в один forward pass через GPU. Это ключевой механизм для высокого throughput LLM: GPU параллелен и обрабатывает матричные умножения эффективнее для больших батчей. Правильная настройка батчинга позволяет сократить количество необходимых GPU в 3-5 раз, что экономит от 150 000 до 500 000 рублей в месяц на инфраструктуре.

Почему батчинг критичен для LLM?

Без батчинга даже мощная GPU A100 80GB выдает лишь 30 tokens/sec для модели Llama-3-8B. При batch=16 – 300 tokens/sec, а при batch=64 – уже 900 tokens/sec. Таким образом, прирост в 30 раз. Однако latency p99 растет с 200 мс до 400 мс, что все еще приемлемо для большинства real-time сценариев. Если у вас 100 concurrent пользователей, без батчинга каждый будет ждать своей очереди – общее время ответа может превысить минуту. С continuous batching все запросы обрабатываются параллельно, и время ответа снижается до секунд.

Batch size	Throughput (tokens/sec)	Latency p99 (ms)	GPU Utilization
1	30	200	15%
16	300	250	65%
64	900	400	90%

Почему continuous batching выигрывает у статического?

Static batching фиксирует размер батча и ждёт его заполнения, что увеличивает latency при низкой нагрузке. Continuous batching (in-flight batching) добавляет запросы в батч динамически — как только GPU освобождается, он сразу обрабатывает следующую пачку. Это снижает время ожидания и повышает utilisation.

Тип батчинга	Размер батча	Время ожидания	Throughput	GPU Utilization
Static	Фиксированный	Высокое при низкой нагрузке	Средний	Низкий
Dynamic	Адаптивный	Среднее	Высокий	Средний
Continuous	Адаптивный, in-flight	Низкое	Очень высокий	Высокий

Continuous (In-flight) Batching в vLLM

Согласно официальной документации vLLM, continuous batching реализован автоматически. Ключевые параметры: max-num-seqs — максимальное число запросов в батче, max-num-batched-tokens — общее количество токенов в батче, scheduler-delay-factor — задержка перед формированием батча. Пример конфигурации:

python -m vllm.entrypoints.openai.api_server \
  --model meta-llama/Llama-3-8b-instruct \
  --max-num-seqs 256 \
  --max-num-batched-tokens 32768 \
  --scheduler-delay-factor 0.5 \
  --use-v2-block-manager \
  --enable-chunked-prefill

Chunked prefill разбивает длинный prefill на чанки, что не блокирует decode других запросов:

--enable-chunked-prefill
--max-num-batched-tokens 8192

Как настроить dynamic batching под конкретную GPU?

Следуйте этим шагам:

Определите модель и GPU. Например, Llama-3-8B на A100-80GB.
Выберите фреймворк. vLLM — для быстрого старта, TensorRT-LLM — для максимальной производительности.
Запустите бенчмаркинг. Используйте нагрузочные тесты с разным числом concurrent пользователей.
Настройте параметры. max-num-seqs, max-num-batched-tokens, scheduler-delay-factor.
Мониторинг. Отслеживайте метрики num_requests_running, avg_prompt_throughput_toks_per_s.

Какие метрики мониторинга важны для батчинга?

vLLM экспортирует метрики через Prometheus: num_requests_running (запросы в активном батче), num_requests_waiting (в очереди), avg_prompt_throughput_toks_per_s, avg_generation_throughput_toks_per_s. С помощью этих метрик можно настроить баланс между throughput и latency. Для комплексного мониторинга используйте Grafana.

Типичные ошибки при настройке батчинга:

Слишком большой max-num-seqs: ведёт к росту latency p99 из-за конкуренции за память KV cache.
Игнорирование chunked prefill: длинные промпты блокируют decode, снижая utilisation.
Отсутствие бенчмаркинга под реальную нагрузку: параметры, подобранные на синтетических данных, часто не работают в продакшене.

Настройка динамического батчинга в TensorRT-LLM / Triton

# tensorrt_llm/config.pbtxt
parameters {
  key: "max_tokens_in_paged_kv_cache"
  value: { string_value: "40000" }
}
parameters {
  key: "batch_scheduler_policy"
  value: { string_value: "guaranteed_no_evict" }
}
parameters {
  key: "executor_static_batch_size"
  value: { string_value: "-1" }
}

Ручная реализация батчинга (пример DynamicBatchInferenceServer)

Если используется собственный inference server:

import asyncio
from dataclasses import dataclass
from collections import deque
import time

@dataclass
class PendingRequest:
    id: str
    prompt: str
    max_tokens: int
    future: asyncio.Future
    enqueued_at: float

class DynamicBatchInferenceServer:
    def __init__(
        self,
        model,
        max_batch_size: int = 64,
        max_wait_ms: float = 20.0,
        max_tokens_per_batch: int = 16384
    ):
        self.model = model
        self.max_batch_size = max_batch_size
        self.max_wait_ms = max_wait_ms
        self.max_tokens_per_batch = max_tokens_per_batch
        self.queue: deque[PendingRequest] = deque()
        self.lock = asyncio.Lock()
        self._batch_worker_task = None

    async def start(self):
        self._batch_worker_task = asyncio.create_task(self._batch_worker())

    async def predict(self, prompt: str, max_tokens: int = 512) -> str:
        future = asyncio.get_event_loop().create_future()
        request = PendingRequest(
            id=str(time.time()),
            prompt=prompt,
            max_tokens=max_tokens,
            future=future,
            enqueued_at=time.time()
        )
        async with self.lock:
            self.queue.append(request)
        return await future

    async def _batch_worker(self):
        while True:
            await asyncio.sleep(self.max_wait_ms / 1000)
            async with self.lock:
                if not self.queue:
                    continue
                batch: list[PendingRequest] = []
                total_tokens = 0
                while (self.queue
                       and len(batch) < self.max_batch_size
                       and total_tokens + self.queue[0].max_tokens <= self.max_tokens_per_batch):
                    req = self.queue.popleft()
                    batch.append(req)
                    total_tokens += len(req.prompt.split()) + req.max_tokens
            if not batch:
                continue
            prompts = [req.prompt for req in batch]
            max_tokens_list = [req.max_tokens for req in batch]
            try:
                outputs = self.model.generate_batch(prompts, max(max_tokens_list))
                for req, output in zip(batch, outputs):
                    if not req.future.done():
                        req.future.set_result(output)
            except Exception as e:
                for req in batch:
                    if not req.future.done():
                        req.future.set_exception(e)

Кейс: оптимизация для высоконагруженного чат-бота

Клиент с нагрузкой 2000 запросов в минуту использовал 8 GPU A100 без батчинга. После настройки continuous batching с параметрами max-num-seqs=256 и chunked prefill удалось обрабатывать ту же нагрузку на 2 GPU. Экономия инфраструктуры составила 400 000 рублей в месяц. Окупаемость проекта — 3 недели.

Благодаря настройке dynamic batching наши клиенты сокращают затраты на GPU-инфраструктуру в 3-10 раз, добиваясь окупаемости проекта в течение 2-3 месяцев. Экономия составляет от 150 000 рублей в месяц.

Что входит в настройку

Конфигурация inference server (vLLM, TensorRT-LLM или кастомный)
Бенчмаркинг и подбор параметров батчинга
Интеграция мониторинга метрик батчинга
Документация по развёртыванию и поддержке
Обучение команды (опционально)

Ориентировочные сроки: от 2 до 10 рабочих дней в зависимости от сложности. Стоимость рассчитывается индивидуально.

Получите консультацию по оптимизации throughput вашего LLM. Свяжитесь — оценим проект за 1 день. Закажите аудит текущей конфигурации батчинга — мы выявим узкие места и предложим улучшения с расчетом экономии.

MLOps: инфраструктура для обучения, деплоя и мониторинга ML-моделей

Модель обучена, метрики — F1 0.94 на валидации. Через три месяца в продакшене качество падает на 12%. Никто не знает, когда именно — нет мониторинга. Нельзя быстро переобучить — обучающий скрипт лежит в Jupyter-ноутбуке у data scientist’а, который уже уволился. Данные для ретрейна собирают руками из трёх разрозненных систем. Примерно половина проектов приходят к нам с этой болью. Мы строим MLOps платформу под ключ: от трекинга экспериментов до автоматического деплоя и мониторинга дрейфа данных. Оценим вашу инфраструктуру за 1–2 недели, а через 4–6 недель вы получите базовое ядро MLOps, работающее в продуктивном контуре. Наша команда — 10+ лет опыта в ML-инфраструктуре, более 50 внедрений.

Experiment tracking и воспроизводимость

Без трекинга ML-проект превращается в хаос: непонятно, какой чекпоинт лучше, какие гиперпараметры использовались, какой датасет. Воспроизвести результат через месяц — квест.

MLflow — open source стандарт для трекинга. Логирует параметры, метрики, артефакты (модели, графики) и код. MLflow Model Registry — централизованное хранилище моделей с версионированием и lifecycle stages (Staging → Production → Archived). Деплой через MLflow Serving или интеграция с внешними системами.

Типичная инициализация в коде:

import mlflow

mlflow.set_experiment("fraud-detection-v2")
with mlflow.start_run():
    mlflow.log_params({"learning_rate": 3e-4, "batch_size": 64, "epochs": 10})
    mlflow.log_metric("val_f1", val_f1, step=epoch)
    mlflow.pytorch.log_model(model, "model")

Это минимум. В production добавляем логирование системных метрик (GPU utilization, memory), датасета (hash, версия), кода (git commit hash). Weights & Biases — более богатый UI, collaboration features, sweep для hyperparameter optimization. MLflow — для on-premise deployment без внешних зависимостей.

DVC (Data Version Control) — версионирование данных и моделей поверх git. Данные хранятся в S3/GCS/Azure Blob, в git — только метаданные (хэши). dvc repro воспроизводит весь пайплайн от сырых данных до метрик.

Как обеспечить воспроизводимость обучения? Фиксируйте random seeds (torch.manual_seed, numpy.random.seed, random.seed) и записывайте их в метаданные эксперимента. Без этого дебаггинг нерегулярных результатов — боль. Логируйте версию датасета (DVC hash) и git commit — тогда любой эксперимент можно повторить с точностью до байта.

Оркестрация пайплайнов: Kubeflow, Airflow, Prefect

Когда нужен оркестратор пайплайнов? Скрипт обучения на 100 строк в cron — нормально для простых задач. Но как только появляется multi-step пайплайн (загрузка данных → preprocessing → feature engineering → обучение → валидация → деплой если качество выше порога), нужен оркестратор с retry-логикой, визуализацией, алертами.

Kubeflow — Kubernetes-native оркестратор для ML (см. Wikipedia). Каждый шаг — Docker-контейнер. Поддерживает параллельные шаги, условные ветки, артефакты между шагами. Интегрируется с Katib (AutoML), KServe (serving), Feast (feature store).

Apache Airflow — более общий DAG-оркестратор. Широкая экосистема операторов (S3, Spark, DBT, Kubernetes). Проще развернуть, если уже есть Airflow в компании.

Prefect / Metaflow — меньше boilerplate. Prefect 2.x с декораторами @flow и @task — быстрый старт для небольших команд.

Типичная архитектура обучающего пайплайна на Kubeflow:

Data ingestion component — забирает данные из S3/БД, валидирует схему через Great Expectations
Preprocessing component — трансформации, normalization, train/val/test split
Training component — обучение на GPU, логирование в MLflow
Evaluation component — вычисление метрик, сравнение с baseline в Model Registry
Conditional deployment — деплой только если новая модель лучше текущей на >2% F1

Каждый component — отдельный Docker-образ. Пайплайн версионируется в git. Запуск по расписанию (ретрейнинг раз в неделю на новых данных) или вручную.

Model Registry и управление жизненным циклом

Model Registry — не просто хранилище чекпоинтов. Это централизованная система, которая знает:

Какая модель сейчас в продакшене (и с какими метриками)
История всех версий с параметрами обучения
Метаданные: датасет, git commit, результаты валидации
Lifecycle stage: None → Staging → Production → Archived

MLflow Model Registry — стандарт. Для enterprise — Vertex AI Model Registry (GCP), SageMaker Model Registry (AWS), Azure ML Model Registry.

Продвижение модели через стейджи: автоматически переводим модель в Staging после успешного прохождения eval, затем ручное или автоматическое (при A/B тесте) продвижение в Production. Rollback — переключение на предыдущую Production-версию за секунды.

Serving: от FastAPI до Triton Inference Server

Простой случай. FastAPI + PyTorch/ONNX на одном сервере — 80% production ML deployments именно так. Достаточно для большинства задач с нагрузкой до 100 req/s.

from fastapi import FastAPI
import onnxruntime as ort

app = FastAPI()
session = ort.InferenceSession("model.onnx", providers=["CUDAExecutionProvider"])

@app.post("/predict")
async def predict(request: PredictRequest):
    inputs = preprocess(request.text)
    outputs = session.run(None, {"input_ids": inputs})
    return {"label": postprocess(outputs)}

Triton Inference Server — production-стандарт для высоких нагрузок (500+ req/s). Dynamic batching, concurrent model execution, model ensemble. Поддерживает TensorRT, ONNX, PyTorch TorchScript, TensorFlow SavedModel.

KServe — Kubernetes-native ML serving с autoscaling, canary deployments, A/B testing из коробки. Scale-to-zero для неактивных моделей — экономия на инфраструктуре до 40% (более 1.2 млн рублей в год для проекта с 10 моделями).

Мониторинг: data drift, model drift, инфраструктурные метрики

Мониторинг — то, что обычно делают в последнюю очередь и о чём жалеют в первую. Три уровня.

Инфраструктурный мониторинг. Latency (P50/P95/P99), throughput (req/s), error rate (4xx, 5xx), GPU/CPU utilization. Prometheus + Grafana — стандарт. Алерт при P99 latency > threshold или error rate > 1%.

Data drift мониторинг. Распределение входных данных меняется со временем. Детектируем через PSI (Population Stability Index) для числовых признаков: PSI > 0.2 — сильный дрейф. Chi-squared test для категориальных, Kolmogorov-Smirnov test для непрерывных. Evidently AI — open source библиотека с готовыми дрейф-тестами.

Model drift мониторинг. Если есть ground truth с задержкой (например, через неделю знаем конверсию) — мониторим реальные метрики. Если нет — surrogate метрики: распределение prediction scores, доля confident predictions.

Alerting. Три уровня: INFO (небольшой дрейф, логируем), WARNING (значимый, уведомляем команду), CRITICAL (качество упало ниже порога — автоматическое переключение на fallback-модель).

Почему важен мониторинг дрейфа данных? Без него вы узнаёте о деградации модели только по жалобам пользователей или звенящему SLA. Алерт о дрейфе позволяет переобучить модель заранее, до того как ошибки начнут приносить убытки. В одном из наших проектов мониторинг PSI выявил дрейф через 2 дня после изменения источника данных — это спасло кампанию с бюджетами на 2 млн рублей.

Типичная ошибка	Последствия	Решение
Отсутствие версионирования данных	Невоспроизводимость экспериментов	Внедрить DVC или аналоги
Ручной деплой моделей	Ошибки человеческого фактора, долгий rollback	Автоматизировать CI/CD пайплайн
Мониторинг только по бизнес-метрикам	Позднее обнаружение дрейфа	Добавить data drift мониторинг (PSI, KS)

Feature Store

Feature Store решает проблему training-serving skew. Если preprocessing во время обучения и инференса реализован в двух разных местах — расхождение неизбежно.

Когда нужен Feature Store?

Несколько моделей используют одни и те же признаки
Признаки вычисляются из потоковых данных (real-time)
Большая команда с разными людьми на feature engineering и model training

Feast — open source Feature Store. Офлайн store (S3 + Parquet) для обучения, онлайн store (Redis, DynamoDB) для low-latency инференса. Feature definitions как код, materialization job синхронизирует офлайн → онлайн.

Tecton (коммерческий), Vertex AI Feature Store (GCP), SageMaker Feature Store (AWS) — managed варианты с меньшим ops overhead.

CI/CD для ML

ML CI/CD — обычный CI/CD плюс специфичные ML-шаги.

ML-специфичные checks в CI:

Проверка воспроизводимости: запустить обучение с фиксированным seed, результат должен совпадать
Data validation: Great Expectations или Pandera на schema/distribution checks
Model performance check: автоматический eval на holdout, блокировать merge если деградация > порога
Latency regression test: inference должен укладываться в SLA

GitOps для деплоя. Merge в main → CI запускает обучение → eval → если проходит → автоматический деплой в Staging → smoke tests → ручное продвижение в Production или автоматическое при успешном canary.

Инструменты: GitHub Actions / GitLab CI для CI, ArgoCD для GitOps-деплоя на Kubernetes.

Что входит в разработку MLOps-платформы

Мы предоставляем полный цикл работ, документацию и обучение команды.

Этап	Длительность	Результат
Аудит текущей инфраструктуры и data pipeline	1–2 недели	Roadmap с рисками и приоритетами
Развёртывание ядра: MLflow, оркестратор, serving	4–6 недель	Работающий пайплайн обучения и деплоя
Feature Store и CI/CD для ML	2–3 месяца	Feature Store, автоматические retrain и деплой
Мониторинг дрейфа и алертинг	3–4 недели	Дашборды, алерты, playbook по инцидентам
Обучение команды и документация	1–2 недели	Runbook, политики, обучение для data scientists

Итоговый срок от аудита до полноценной MLOps-платформы: 3–5 месяцев. Также возможен поэтапный запуск: базовый уровень (трекинг + serving) за 4–6 недель.

Стоимость рассчитывается индивидуально под объём данных, количество моделей и требования к инфраструктуре. Закажите аудит MLOps-инфраструктуры — получите roadmap за 1–2 недели. Свяжитесь с нами для оценки вашего проекта — мы пришлём предварительный расчёт за 2 рабочих дня.

Обратите внимание: гарантия на архитектурные решения — 12 месяцев. Предоставляем сертификаты интеграции с основными облачными провайдерами (AWS, GCP, Azure). За время работы мы не потеряли ни одного клиента после первого внедрения — опыт 50+ успешных MLOps-проектов говорит сам за себя. Получите консультацию по построению MLOps платформы уже сегодня.