Интеграция Braintrust для оценки качества LLM

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.
Показано 1 из 1Все 1566 услуг
Интеграция Braintrust для оценки качества LLM
Простой
от 4 часов до 2 дней
Часто задаваемые вопросы

Направления AI-разработки

Этапы разработки AI-решения

Последние работы

  • image_website-b2b-advance_0.webp
    Разработка сайта компании B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    901
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1119
  • image_logo-advance_0.webp
    Разработка логотипа компании B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    853

Интеграция Braintrust для оценки качества LLM

Braintrust — платформа для evaluation и CI/CD тестирования LLM приложений. Позволяет создавать наборы тестовых кейсов, запускать их автоматически при изменении промптов или моделей и отслеживать регрессии.

Установка и первый эксперимент

pip install braintrust

import braintrust
from braintrust import Eval

braintrust.login(api_key="...")

# Определение оценочной функции
def accuracy_scorer(output: str, expected: str) -> float:
    """Простой scorer на основе точного совпадения"""
    return 1.0 if output.strip().lower() == expected.strip().lower() else 0.0

def llm_judge_scorer(input: str, output: str) -> float:
    """LLM-as-judge для субъективных задач"""
    from openai import OpenAI
    client = OpenAI()
    response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "user",
            "content": f"""Rate this response quality from 0 to 1.
Query: {input}
Response: {output}
Return only a decimal number."""
        }]
    )
    return float(response.choices[0].message.content.strip())

# Запуск эксперимента
Eval(
    "customer-support-bot",  # Имя проекта в Braintrust
    data=lambda: [
        {"input": q, "expected": a}
        for q, a in test_dataset
    ],
    task=lambda input: call_customer_support_bot(input),
    scores=[accuracy_scorer, llm_judge_scorer],
    experiment_name="prompt-v3-gpt4o"
)

Интеграция в CI/CD

# GitHub Actions
- name: Run LLM Evaluation
  run: |
    pip install braintrust
    python eval/run_evals.py
  env:
    BRAINTRUST_API_KEY: ${{ secrets.BRAINTRUST_API_KEY }}
    OPENAI_API_KEY: ${{ secrets.OPENAI_API_KEY }}

# Автоматическое сравнение с baseline
- name: Check for regressions
  run: |
    braintrust eval --project customer-support \
      --compare-to baseline \
      --fail-on-regression 0.05  # Fail если score упал на 5%+

Braintrust автоматически сравнивает результаты текущего эксперимента с предыдущим, выделяет регрессии (примеры, где новый промпт хуже) и улучшения. Это делает его особенно ценным для команд с быстрым циклом разработки промптов.