Інтеграція Humanloop для управління промптами та оцінки LLM
Humanloop — платформа для керування LLM додатками: версіонування промптів, A/B тестування, збір human feedback та автоматична оцінка. Відрізняється від PromptLayer більш глибокої інтеграцією evaluation пайплайну.
Встановлення та налаштування
pip install humanloop
from humanloop import Humanloop
hl = Humanloop(api_key="hl_...")
# Вызов через Humanloop с трекингом
response = hl.chat(
project="customer-support",
model="gpt-4o",
messages=[
{"role": "system", "content": "You are a helpful customer support agent."},
{"role": "user", "content": user_message}
],
inputs={"customer_name": customer_name}, # Переменные промпта
)
# Логирование обратной связи
hl.log(
project="customer-support",
data_id=response.data_id,
feedback=[{
"type": "rating",
"value": "positive" # или "negative"
}]
)
A/B тестування промптів
# Определение эксперимента
experiment = hl.experiments.create(
project="customer-support",
name="prompt-ab-test-v3",
config=[
{
"model": "gpt-4o",
"template": "{{system_prompt_v1}}",
"traffic_split": 50
},
{
"model": "gpt-4o",
"template": "{{system_prompt_v2}}",
"traffic_split": 50
}
]
)
# Запрос автоматически роутится в одну из групп
response = hl.chat(
project="customer-support",
experiment_id=experiment.id,
messages=[{"role": "user", "content": user_message}]
)
Evaluation пайплайн
Humanloop підтримує як human evaluation (через UI), так і автоматичну оцінку (LLM-as-judge):
evaluator = hl.evaluators.create(
name="response-quality",
type="llm",
spec={
"model": "gpt-4o",
"prompt": """Rate the following customer support response on a scale 1-5.
Response: {{output}}
Customer query: {{inputs.query}}
Return only a number 1-5.""",
"return_type": "number"
}
)
Humanloop добре підходить для команд, яким потрібен повний цикл: від версіонування промптів до структурованого збору feedback від користувачів та автоматичної оцінки якості.







