Как Self-Healing Tests отличает тип ошибки?

Используется дообученная NLP-модель на базе DistilBERT. Она анализирует stack trace и сообщение об ошибке, классифицируя падение как ElementNotFound, AssertionError, TimeoutError или NetworkError. Для каждого типа применяется своя стратегия восстановления.

Что делать, если тест не фиксится автоматически?

Если confidence модели ниже порога (по умолчанию 0.85), система создаёт Pull Request с предложенным фиксом. Инженеру остаётся только провести code review. В режиме report-only исправления не применяются — только логируются.

Поддерживает ли система Cypress?

Да, но частично — через proxy-слой. Полная поддержка реализована для Playwright и Selenium. Для Cypress работает только Assertion Fixing, без восстановления локаторов.

Сколько времени занимает внедрение?

Зависит от объёма тестовой базы. Для проектов с 200-1000 тестами внедрение занимает 3-5 недель. Включает аудит, сбор датасета, обучение модели и интеграцию в CI/CD.

Какова точность восстановления локаторов?

На тестовом датасете из 5000 пар сломанный/исправленный локатор точность составляет 87%. В реальных проектах с учётом ручного ревью auto-healing закрывает 60-70% падений без участия QA.

Как Self-Healing Tests отличает тип ошибки?

Используется дообученная NLP-модель на базе DistilBERT. Она анализирует stack trace и сообщение об ошибке, классифицируя падение как ElementNotFound, AssertionError, TimeoutError или NetworkError. Для каждого типа применяется своя стратегия восстановления.

Что делать, если тест не фиксится автоматически?

Если confidence модели ниже порога (по умолчанию 0.85), система создаёт Pull Request с предложенным фиксом. Инженеру остаётся только провести code review. В режиме report-only исправления не применяются — только логируются.

Поддерживает ли система Cypress?

Да, но частично — через proxy-слой. Полная поддержка реализована для Playwright и Selenium. Для Cypress работает только Assertion Fixing, без восстановления локаторов.

Сколько времени занимает внедрение?

Зависит от объёма тестовой базы. Для проектов с 200-1000 тестами внедрение занимает 3-5 недель. Включает аудит, сбор датасета, обучение модели и интеграцию в CI/CD.

Какова точность восстановления локаторов?

На тестовом датасете из 5000 пар сломанный/исправленный локатор точность составляет 87%. В реальных проектах с учётом ручного ревью auto-healing закрывает 60-70% падений без участия QA.

AI-система Self-Healing Tests: автоисправление сломанных тестов

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-система Self-Healing Tests: автоисправление сломанных тестов

Средний

~2-4 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1357
Разработка веб-приложения для компании FEEDME
1249
Разработка веб-сайта для компании БЕЛФИНГРУПП
954
Разработка интернет магазина для компании FURNORO
1187
Разработка логотипа компании B2B Advance
645
Разработка веб-приложения для компании Enviok
926

Показать больше работ

Команда тратит 20–40% времени на поддержку тестовой базы — не на написание новых тестов, а на исправление упавших. Причины: изменился UI (локатор не находит элемент), изменилось API (структура ответа), изменилась бизнес-логика (условие устарело). Self-Healing Tests (автоисправление тестов) — это слой ML, который детектирует причину падения и автоматически применяет фикс без участия человека. Это практическое применение AI для тестирования и ML для QA. Экономия бюджета команды может достигать 50% на поддержке автотестов, а количество flaky-тестов снижается до 70%. Свяжитесь с нами, чтобы получить оценку вашего проекта.

Сравните: ручное исправление одного flaky-теста занимает в среднем 2–4 часа. Self-Healing сокращает это время до 5 минут на проверку предложенного фикса — ускорение в 24–48 раз.

Как работает Self-Healing Tests?

Система работает в двух режимах: проактивный — превентивное обновление локаторов при деплое нового фронтенда, и реактивный — исправление после падения в CI/CD.

Ядро системы — три модуля:

Failure Classifier — NLP-модель (дообученный DistilBERT), классифицирует тип падения по stack trace: ElementNotFound, AssertionError, TimeoutError, NetworkError.
Selector Healer — для ElementNotFound ищет альтернативный локатор через DOM-анализ; обучен на парах (старый локатор → новый локатор) из истории коммитов.
Assertion Fixer — для AssertionError сравнивает фактическое и ожидаемое значение, определяет паттерн изменения (числовой drift, изменение формата строки, структурное изменение JSON) и предлагает обновлённый assert.

class SelfHealingRunner:
    def __init__(self, model_path: str):
        self.classifier = FailureClassifier.load(model_path)
        self.healer = SelectorHealer()
        self.assertion_fixer = AssertionFixer()

    def run_with_healing(self, test_fn, max_retries: int = 2):
        for attempt in range(max_retries + 1):
            try:
                return test_fn()
            except Exception as e:
                if attempt == max_retries:
                    raise
                failure_type = self.classifier.predict(str(e))
                if failure_type == "ElementNotFound":
                    self.healer.apply_fix(e)
                elif failure_type == "AssertionError":
                    self.assertion_fixer.suggest(e)

Что даёт Selector Healing?

Для Selenium или Playwright тестов основной источник нестабильности — хрупкие CSS-селекторы вида #app > div:nth-child(3) > button. После изменения вёрстки такой локатор перестаёт работать.

Алгоритм восстановления:

Парсим DOM текущей страницы в момент падения.
Извлекаем признаки потерянного элемента из исходного кода теста: тип тега, text content, aria-label, соседние элементы.
Строим эмбеддинг элемента (признаки → вектор через обученный энкодер).
Ищем ближайший элемент в текущем DOM по cosine similarity.
Генерируем новый локатор: предпочтение data-testid, затем aria-label, затем XPath с text().

Точность восстановления на тестовом датасете (5000 пар): 87% корректных фиксов. Self-Healing ускоряет исправление локаторов в 24–48 раз по сравнению с ручным поиском. Гарантируем, что после двухнедельного режима report-only система готова к автофиксам.

Пример срабатывания Selector Healer

Был локатор `#menu > div:nth-child(3) > button`. После редизайна меню кнопка переместилась. Система нашла элемент по aria-label "Add to cart" и сгенерировала `button[aria-label="Add to cart"]`. Тест прошёл.

Как мы интегрируемся в CI/CD?

# .github/workflows/tests.yml
- name: Run tests with self-healing
  run: |
    pytest tests/ --self-healing-mode=auto \
      --healing-model=./models/healing_v2.pkl \
      --max-healing-retries=2 \
      --healing-report=artifacts/healing_report.json

После каждого healing-события система создаёт Pull Request с предложенным фиксом — инженер делает code review, а не отлаживает тест с нуля. По данным наших проектов с 500+ e2e тестами auto-healing закрывает 60–70% падений без участия QA, что даёт экономию более 100 человеко-часов в месяц. Для Playwright self-healing реализован на полную мощность, Selenium автоисправление работает через Selector Healer. Опыт внедрения в 10+ проектах подтверждает стабильные результаты.

Поддерживаемые фреймворки и технологии

Фреймворк	Тип тестов	Статус поддержки
Playwright	E2E, компонентные	Полная
Selenium WebDriver	E2E	Полная
Cypress	E2E	Частичная (через proxy)
pytest	API, unit	Только Assertion Fixing
JUnit/TestNG	Unit, integration	Только Assertion Fixing

Этапы внедрения

Аудит тестовой базы: анализ частоты падений по типам, выявление наиболее нестабильных тестов.
Сбор датасета из истории CI — пары (упавший тест, коммит-исправление).
Обучение Failure Classifier и Selector Healer на конкретном проекте.
Интеграция в CI/CD pipeline с режимом report-only на первые 2 недели.
Переключение в режим auto-fix с порогом confidence > 0.85.

Объём тестовой базы	Срок внедрения
До 200 тестов	2–3 недели
200–1000 тестов	3–5 недель
Более 1000 тестов	5–8 недель

Что входит в работу?

Полный аудит тестовой инфраструктуры и истории падений.
Обучение кастомных моделей на данных вашего проекта.
Интеграция в CI/CD (GitHub Actions, GitLab CI, Jenkins).
Документация по настройке и эксплуатации.
Обучение команды (2 часа вебинара).
Поддержка в течение 3 месяцев после внедрения.

После внедрения Self-Healing количество упавших тестов снизилось на 70% — подтверждает практика наших клиентов. Self-Healing автоматизирует регрессионное тестирование и даёт уменьшение flaky тестов.

Когда стоит заказать внедрение?

Если ваша команда тратит больше 20% времени на поддержку тестов, а количество flaky-тестов растёт с каждым спринтом — свяжитесь с нами. Оценим ваш проект за 1–2 дня и предложим решение. Закажите внедрение — получите консультацию по вашей тестовой базе бесплатно.

Практический разбор LLM: fine-tuning, RAG, агенты, деплой

Модель GPT‑4 или Claude 3.5 Sonnet через публичное API — не решение, а просто инструмент. Когда приходит требование «сделать как ChatGPT, но на наших данных», за ним стоит реальная инженерная задача: от настройки промптов до обучения 70B‑модели на собственной инфраструктуре. Разработка решений на базе LLM под ключ — это сложный стек, и мы занимаемся этим более 5 лет. За это время реализовано свыше 20 проектов в области генеративного AI: от RAG‑систем для юридических департаментов до кастомных агентов для техподдержки. Где именно находится ваша задача — зависит от данных, latency‑требований, бюджета и того, насколько критична конфиденциальность.

Типичная ситуация: клиент уже попробовал ChatGPT, но результаты нестабильны — то отвечает точно, то галлюцинирует. Либо нужна интеграция в корпоративный портал с соблюдением политик безопасности. Разберём каждый слой стека в деталях — от RAG до production‑деплоя.

Почему RAG‑системы ломаются и как это исправить?

RAG (Retrieval‑Augmented Generation) выглядит просто: нашли релевантные документы, положили в контекст, модель ответила. На практике сбоит в нескольких местах.

Chunking без перекрытия. Классическая ошибка: chunk_size=512, overlap=0. Если ответ лежит на границе двух чанков, retrieval не найдёт ни одного с достаточной уверенностью. Решение: overlap 15–25% от chunk_size, а лучше sentence‑aware splitting через spaCy или NLTK, а не наивное разбиение по символам.

Плохой embedder. Текст‑embedding‑ada‑002 — хорош для общего случая, но на юридических или медицинских текстах проигрывает специализированным моделям: E5‑large‑v2, BGE‑M3 или fine‑tuned sentence‑transformers на доменных данных. Разница в Recall@5 может составлять 15–25%.

Отсутствие re‑ranking. Векторный поиск оптимизирован по скорости, не по релевантности. Cross‑encoder re‑ranker (ms‑marco‑MiniLM‑L‑6‑v2, bge‑reranker‑large) после первичного retrieval поднимает точность топ‑3 при приемлемой задержке (+50–150 ms). Это часто важнее улучшения embedding‑модели.

Гибридный поиск. Только dense векторы плохо работают на точных запросах: имена, артикулы, коды. BM25 (sparse) хорошо находит точные совпадения, но не понимает семантику. Гибрид через RRF (Reciprocal Rank Fusion) — оптимальный компромисс. Qdrant, Weaviate и pgvector 0.7+ поддерживают гибридный поиск нативно.

Типичная production‑архитектура корпоративного knowledge base

Документы → preprocessing (PyMuPDF, Unstructured)
Chunking → embedding (BGE‑M3)
Qdrant (гибридный dense+sparse)
Cross‑encoder re‑ranking
Контекст → LLM (vLLM или OpenAI API)
Ответ с источниками (RAGAS для оценки качества)

Когда стоит fine‑tune, а не промпт‑инжиниринг?

Промпт‑инжиниринг решает ~70% задач адаптации LLM под домен. Оставшиеся 30% требуют дообучения. Три признака: модель игнорирует специфический формат вывода даже при детальном описании в промпте; задача требует глубокого знания специализированной лексики (медицина, право); нужно значительно снизить затраты на токены, заменив большую модель меньшей специализированной.

LoRA и QLoRA — стандарт для SFT. LoRA добавляет trainable low‑rank матрицы к attention‑слоям. Типичная конфигурация для Llama‑3 8B: r=64, lora_alpha=128, target_modules=["q_proj","v_proj","k_proj","o_proj"] — обучаемых параметров ~0.8%, обучение на одной A100 40GB. QLoRA добавляет 4‑битную квантизацию (NF4) и позволяет fine‑tune 70B модель на двух A100 40GB, хотя скорость падает вдвое по сравнению с bf16.

DPO вместо RLHF. Direct Preference Optimization требует только пары (chosen, rejected), а не скалярные reward‑сигналы. DPOTrainer из библиотеки trl (Hugging Face) реализует это несколькими десятками строк.

Типичная ошибка. Датасет из 500 примеров, 5 эпох, validation loss 0.8 — кажется норм. Но на тесте модель деградировала на общих инструкциях. Причина: catastrophic forgetting. Решение — добавить 10–20% общих instruction‑following примеров (Alpaca, FLAN) в обучающую выборку, чтобы не разрушить исходные способности.

Как выбрать базовую модель: 8B или 70B?

Модель	Параметры	Сильные стороны	Контекст
Llama‑3.1 8B	8B	Баланс качество/скорость	128k
Llama‑3.1 70B	70B	Сложные рассуждения	128k
Mistral 7B / Mixtral 8x7B	7B / 47B	Эффективность на размер	32k
Qwen2.5 72B	72B	Код, мультиязычность	128k
Gemma 2 27B	27B	Открытая лицензия	8k

Для большинства задач fine‑tuning 8B модели достаточно. 70B нужен, когда требуется глубокое рассуждение или baseline 8B не достигает нужного качества даже после дообучения. Стоимость инференса Llama‑3 8B через vLLM на A100 — около $0.001/1K токенов, что в 15 раз дешевле GPT‑4.

Что даёт PagedAttention в production?

vLLM — первый выбор для serving open‑source моделей. PagedAttention — ключевое техническое решение: KV‑cache управляется как virtual memory в ОС, без фрагментации. Это даёт throughput в 2–4 раза выше по сравнению с наивным HuggingFace Transformers inference. Документация vLLM подтверждает: continuous batching и PagedAttention — стандарт для высоконагруженных LLM‑сервисов.

Типичные числа на A100 80GB для Llama‑3 8B (bf16): 400–600 req/s, P50 latency 200–400ms, P99 latency 600–900ms при concurrency 64. Для 70B на двух A100 с tensor parallelism: 80–120 req/s, P99 latency 1.5–2.5s. Квантизация AWQ или GPTQ снижает потребление памяти в 2 раза при потере качества в пределах 1–3%.

Мультиагентные системы

Агенты — LLM с доступом к инструментам: поиск, выполнение кода, запросы к API, работа с БД. Основные паттерны:

ReAct (Reason + Act): модель рассуждает → выбирает инструмент → наблюдает результат → снова рассуждает. LangChain и LlamaIndex реализуют из коробки.
Multi‑agent orchestration: несколько специализированных агентов с координатором сверху. Пример: coordinator → researcher (поиск + summarization) → coder (генерация и исполнение кода) → critic (проверка). Инструменты: AutoGen (Microsoft), CrewAI, кастомная реализация на LangGraph.

В продакшене агентные системы недетерминированы. Обязательные guardrails, лимиты шагов, логирование каждого шага, human‑in‑the‑loop для критических действий.

Как мы работаем: этапы, сроки, результат

Этап	Длительность	Что получаете
Аудит и сбор данных	1–2 нед.	Eval‑датасет из 100+ примеров, формализация задачи
Baseline (промпт + RAG)	1–2 нед.	Рабочий прототип, метрики качества
Fine‑tuning (если нужно)	2–4 нед.	Обученная модель, LoRA‑веса, model card
Деплой и мониторинг	1–2 нед.	vLLM сервер, Grafana + Prometheus
Документация и обучение	1 нед.	API‑документация, обучение команды

Что входит в работу

Мы передаём:

Техническую документацию (model card, конфиги, инструкции по развёртыванию)
Доступ к инфраструктуре (репозиторий с кодом, обученные веса)
1 месяц поддержки после деплоя (консультации, правки по багам)
Обучение команды заказчика (2–3 занятия по эксплуатации системы)

Сроки: базовый RAG‑прототип — 1–2 недели. Fine‑tuning с данными заказчика — 3–6 недель (с учётом подготовки данных). Production‑система с мониторингом и переобучением — 2–4 месяца. Стоимость рассчитывается индивидуально, зависит от объёма данных, сложности модели и требований к инфраструктуре.

Хотите оценить свой проект? Оставьте заявку — мы подготовим предварительное резюме за 1–2 рабочих дня. Или получите консультацию по выбору подхода: RAG, fine‑tuning или гибрид — расскажем, что подойдёт именно вам.