Чем автономная AI-система отличается от обычного чат-бота?

Чат-бот отвечает на вопросы, но не выполняет действия в бизнес-системах. Автономная система — это AI-оркестратор: он классифицирует запрос, извлекает данные, принимает решения, создаёт задачи в CRM/ERP, отправляет уведомления — всё без человека. Это полный цикл обработки, а не диалог.

Какие каналы входящих запросов поддерживаются?

Email (через webhook), REST API, Telegram/WhatsApp боты, веб-формы. Система нормализует запросы в единый формат и направляет в ядро обработки. Можно добавить любой канал через адаптер.

Какой стек технологий используется?

Ядро: LangGraph + StateGraph, классификатор GPT-4o, обогащение через асинхронные вызовы к CRM/Order Service, планировщик действий, векторная память (ChromaDB), мониторинг Prometheus. Деплой на Kubernetes с Triton Inference Server.

Сколько времени занимает внедрение?

От 8 до 13 недель в зависимости от количества типов запросов и интеграций. Включает: архитектуру графа (1-2 нед.), классификатор (2-3 нед.), исполнители (2-4 нед.), интеграцию каналов (1-2 нед.), калибровку на реальных данных (2 нед.).

Чем автономная AI-система отличается от обычного чат-бота?

Чат-бот отвечает на вопросы, но не выполняет действия в бизнес-системах. Автономная система — это AI-оркестратор: он классифицирует запрос, извлекает данные, принимает решения, создаёт задачи в CRM/ERP, отправляет уведомления — всё без человека. Это полный цикл обработки, а не диалог.

Какие каналы входящих запросов поддерживаются?

Email (через webhook), REST API, Telegram/WhatsApp боты, веб-формы. Система нормализует запросы в единый формат и направляет в ядро обработки. Можно добавить любой канал через адаптер.

Какой стек технологий используется?

Ядро: LangGraph + StateGraph, классификатор GPT-4o, обогащение через асинхронные вызовы к CRM/Order Service, планировщик действий, векторная память (ChromaDB), мониторинг Prometheus. Деплой на Kubernetes с Triton Inference Server.

Сколько времени занимает внедрение?

От 8 до 13 недель в зависимости от количества типов запросов и интеграций. Включает: архитектуру графа (1-2 нед.), классификатор (2-3 нед.), исполнители (2-4 нед.), интеграцию каналов (1-2 нед.), калибровку на реальных данных (2 нед.).

Автономная AI-система обработки заявок под ключ

Q: Как система определяет, что запрос нужно передать человеку?

Используем классификатор на GPT-4o с порогом уверенности 0.6. Если уверенность ниже или в запросе обнаружены юридические угрозы, возвраты >50 000 руб., упоминание ущерба — запрос эскалируется оператору. Агент также передаёт задачу человеку при падении критического действия.

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

Автономная AI-система обработки заявок под ключ

Сложный

от 2 недель до 3 месяцев

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1357
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
955
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
926

Показать больше работ

Разрабатываем автономные AI-системы обработки запросов. Это AI-оркестратор, который принимает входящие запросы из различных каналов: email, форм, API, мессенджеров. Система классифицирует их, извлекает данные, исполняет логику обработки и возвращает ответ. Или создаёт задачи в бизнес-системах — всё без участия оператора для типовых случаев.

В отличие от простого чат-бота или агента с одним инструментом, наша система включает полный цикл: приём → понимание → обогащение данных → исполнение → уведомление → мониторинг. Мы реализовали десятки таких проектов, и в этой статье разберём архитектуру на реальном примере.

Как работает классификация запросов?

Входящий запрос проходит через граф состояний LangGraph. Первый узел — классификатор на GPT-4o с Pydantic-моделью. Он определяет тип запроса (техподдержка, биллинг, новый заказ, статус, жалоба, возврат), срочность, уверенность и необходимость эскалации человеку. Если уверенность ниже 0.6 или запрос содержит триггеры (юридические угрозы, возвраты >50 000 руб., упоминание ущерба) — запрос передаётся оператору. Это наш опыт, подтверждённый сотнями проектов.

Архитектура системы

Входные каналы

webhook (email-парсер)
REST API
Telegram/WhatsApp Bot
web-форма

Ядро обработки

LangGraph-граф с состоянием, классификатор, исполнители, агрегатор.

Выходные каналы

REST API внешних систем (CRM, ERP, Service Desk)
email/push уведомления
очередь задач (Celery/Redis)

Подробнее о структуре графа и узлах

Основные узлы: classify (классификация), enrich (обогащение), plan (планирование), execute (исполнение), generate_response (генерация ответа), escalate_to_human (эскалация), send_response (отправка). Условные рёбра route_after_classification и route_after_enrichment определяют следующий шаг в зависимости от состояния.

from langgraph.graph import StateGraph, END
from langgraph.checkpoint.postgres import PostgresSaver
from typing import TypedDict, Annotated, Optional
from datetime import datetime
import operator

class RequestState(TypedDict):
    # Входящий запрос
    raw_content: str
    channel: str               # "email", "api", "telegram", "form"
    sender_id: str
    received_at: datetime

    # Классификация
    request_type: Optional[str]        # "support", "order", "complaint", "inquiry", "refund"
    urgency: Optional[str]             # "critical", "high", "normal", "low"
    confidence: Optional[float]

    # Обогащение
    user_profile: Optional[dict]
    related_entities: Optional[list]   # Связанные заказы, договоры, тикеты

    # Обработка
    action_plan: Optional[list[dict]]
    executed_actions: Annotated[list, operator.add]
    requires_human: bool
    human_reason: Optional[str]

    # Результат
    response_draft: Optional[str]
    outcome: Optional[str]
    processing_time_ms: Optional[int]

from langchain_openai import ChatOpenAI
from pydantic import BaseModel
from typing import Literal

class RequestClassification(BaseModel):
    request_type: Literal["support_technical", "support_billing", "order_new",
                           "order_status", "complaint", "refund_request", "general_inquiry"]
    urgency: Literal["critical", "high", "normal", "low"]
    confidence: float
    extracted_entities: dict
    requires_human: bool
    human_reason: Optional[str] = None
    summary: str

llm = ChatOpenAI(model="gpt-4o", temperature=0)

def classify_request(state: RequestState) -> RequestState:
    result = llm.with_structured_output(RequestClassification).invoke(
        f"""Классифицируй входящий запрос.

Канал: {state['channel']}
Запрос: {state['raw_content']}

Передай человеку если:
- Юридические угрозы или упоминание судебных разбирательств
- Запрос на возврат суммы > 50 000 руб
- Упоминание о физическом ущербе
- Эмоционально заряженный отзыв с публичными угрозами"""
    )

    return {
        **state,
        "request_type": result.request_type,
        "urgency": result.urgency,
        "confidence": result.confidence,
        "requires_human": result.requires_human,
        "human_reason": result.human_reason,
    }

def plan_actions(state: RequestState) -> RequestState:
    """Агент составляет план действий на основе типа запроса"""

    action_templates = {
        "order_status": [
            {"action": "query_order_db", "params": {"order_id": "{extracted_order_id}"}},
            {"action": "generate_status_response", "params": {}},
            {"action": "send_response", "params": {}},
        ],
        "refund_request": [
            {"action": "verify_refund_eligibility", "params": {}},
            {"action": "create_refund_ticket", "params": {}},
            {"action": "notify_finance_team", "params": {}},
            {"action": "send_confirmation", "params": {}},
        ],
        "support_technical": [
            {"action": "search_knowledge_base", "params": {}},
            {"action": "generate_solution", "params": {}},
            {"action": "create_ticket_if_unsolved", "params": {}},
            {"action": "send_response", "params": {}},
        ],
    }

    base_plan = action_templates.get(state["request_type"], [
        {"action": "generate_generic_response", "params": {}},
        {"action": "create_manual_review_task", "params": {}},
    ])

    return {**state, "action_plan": base_plan}

def route_after_classification(state: RequestState) -> str:
    if state["requires_human"]:
        return "escalate_to_human"
    if state["confidence"] < 0.6:
        return "escalate_to_human"
    return "enrich"


def route_after_enrichment(state: RequestState) -> str:
    if state.get("user_profile", {}).get("tier") == "vip" and state["urgency"] in ("high", "critical"):
        return "plan_premium"
    return "plan"


graph = StateGraph(RequestState)
graph.add_node("classify", classify_request)
graph.add_node("enrich", enrich_request)
graph.add_node("plan", plan_actions)
graph.add_node("plan_premium", plan_premium_actions)
graph.add_node("execute", execute_actions)
graph.add_node("generate_response", generate_final_response)
graph.add_node("escalate_to_human", create_human_task)
graph.add_node("send_response", send_response_to_channel)

graph.set_entry_point("classify")
graph.add_conditional_edges("classify", route_after_classification)
graph.add_conditional_edges("enrich", route_after_enrichment)
graph.add_edge("plan", "execute")
graph.add_edge("plan_premium", "execute")
graph.add_edge("execute", "generate_response")
graph.add_edge("generate_response", "send_response")
graph.add_edge("send_response", END)
graph.add_edge("escalate_to_human", END)

processor = graph.compile(checkpointer=PostgresSaver(conn))

Почему система работает без оператора?

Ключевое отличие — способность выполнять действия в бизнес-системах: создавать заказы, проверять статусы, возвраты, отправлять уведомления. Каждое действие — это готовый модуль, который система вызывает по плану. Планировщик действий формирует последовательность шагов на основе типа запроса и контекста пользователя. Если план успешно выполнен — ответ отправляется автоматически. В противном случае система эскалирует задачу оператору с подробным логом ошибок.

Практический кейс: онлайн-ретейлер, 2500 запросов/день

До внедрения: среднее время первого ответа 4.2 часа, 12 операторов работают в три смены, 60% времени тратится на типовые статусные запросы.

Тип запроса	Доля в потоке
Статус заказа	41%
Возвраты	19%
Технические проблемы	14%
Общие вопросы	17%
Жалобы и претензии	9%

После внедрения:

Автономная обработка без участия оператора: 74%
Среднее время первого ответа: с 4.2 часов до 2.1 минуты (в 120 раз быстрее)
Ночная смена: сокращена с 4 до 1 оператора (мониторинг эскалаций)
Точность ответов (выборка 500 запросов): 94.1%
Ложные эскалации: 8.3%
Ошибочное автоматическое закрытие: 2.1%

Экономия на фонде оплаты труда операторов составила более 2 млн руб. в год, а стоимость обработки одной заявки снизилась в 10 раз. Первые две недели после запуска ушли на дообучение классификатора на реальных данных — точность выросла с 81% до 94% после 500 корректировок.

Метрика	До внедрения	После внедрения
Среднее время первого ответа	4.2 часа	2.1 мин
Доля автономных запросов	0%	74%
Операторов в смену	12	4 (сокращение ночной смены)

Что входит в работу

Архитектура и проектирование: моделирование графа состояний, определение типов запросов, сценариев обработки.
Разработка классификатора: подбор промптов, fine-tuning GPT-4o при необходимости, тестирование на исторических данных.
Интеграция с каналами: webhook, API, мессенджеры, веб-формы.
Исполнители действий: подключение к CRM, ERP, Service Desk, написание кода для типовых операций.
Система мониторинга: метрики в Prometheus, дашборды в Grafana, алерты по SLA.
Документация: описание графа, API, инструкции для операторов.
Обучение команды: воркшоп по дообучению модели и администрированию.
Поддержка на запуске: 2 недели сопровождения после ввода в эксплуатацию.

Как мы это делаем: пошаговый план

Аналитика (1–2 недели): собираем логи, выявляем типовые запросы, определяем критерии эскалации.
Проектирование графа (1–2 недели): создаём StateGraph, определяем узлы и рёбра.
Разработка классификатора (2–3 недели): тренируем модель, тестируем на выборке.
Реализация исполнителей (2–4 недели): код для каждого типа запросов.
Интеграция каналов (1–2 недели): подключаем email, API, мессенджеры.
Тестирование и калибровка (2 недели): прогон на реальных данных, корректировка порогов.
Деплой и мониторинг: развёртывание на Kubernetes, настройка алертов.

Сроки

Архитектура системы и граф: 1–2 недели
Классификатор + обогащение данных: 2–3 недели
Исполнители для каждого типа запросов: 2–4 недели
Интеграция с каналами (email, мессенджеры): 1–2 недели
Калибровка и запуск в production: 2 недели
Итого: 8–13 недель

Оценим ваш проект — просто напишите нам. Мы гарантируем прозрачность на каждом этапе и передаём полную документацию. Сертифицированные инженеры с опытом 10+ лет реализуют систему под ключ. Для предварительной оценки вашего потока запросов закажите бесплатный аудит — мы определим потенциал автоматизации и сроки внедрения.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.