Інтеграція Together AI для запуску відкритих LLM
Together AI надає хмарний інференс для 200+ відкритих моделей: Llama 3.1, Mistral, Qwen, DeepSeek, Yi та інші. OpenAI-сумісний API дозволяє перенести існуючий код без переписування. Ключові переваги: можливість запустити будь-яку open-source модель без власної GPU-інфраструктури, fine-tuning власних моделей.
Базова інтеграція
from openai import OpenAI, AsyncOpenAI
# Together використовує OpenAI SDK
client = OpenAI(
api_key="TOGETHER_API_KEY",
base_url="https://api.together.xyz/v1",
)
# Вибір моделі
MODELS = {
"quality": "meta-llama/Meta-Llama-3.1-405B-Instruct-Turbo",
"balanced": "meta-llama/Meta-Llama-3.1-70B-Instruct-Turbo",
"fast": "meta-llama/Meta-Llama-3.1-8B-Instruct-Turbo",
"code": "Qwen/Qwen2.5-Coder-32B-Instruct",
"reasoning": "deepseek-ai/DeepSeek-R1-Distill-Llama-70B",
}
response = client.chat.completions.create(
model=MODELS["balanced"],
messages=[{"role": "user", "content": "Завдання"}],
temperature=0.1,
max_tokens=2048,
)
print(response.choices[0].message.content)
Fine-tuning власних моделей
# Together дозволяє fine-tune відкритих моделей на власних даних
import together
together.api_key = "TOGETHER_API_KEY"
# Завантажуємо датасет (JSONL формат: {"prompt": "...", "completion": "..."})
file_response = together.Files.upload(file="training_data.jsonl")
file_id = file_response["id"]
# Запускаємо fine-tuning
ft_response = together.Finetune.create(
training_file=file_id,
model="meta-llama/Meta-Llama-3.1-8B-Instruct-Reference",
n_epochs=3,
batch_size=16,
learning_rate=1e-5,
suffix="my-custom-model",
)
ft_job_id = ft_response["id"]
# Перевіряємо статус
status = together.Finetune.retrieve(ft_job_id)
print(status["status"]) # "running" | "completed" | "failed"
Вбудовування
response = client.embeddings.create(
model="BAAI/bge-large-en-v1.5", # Один з найкращих для пошуку
input=["Перший текст", "Другий текст"],
)
embeddings = [item.embedding for item in response.data]
Порівняння моделей на Together AI
| Модель | Якість | Швидкість (токени/с) | Вартість (1M) |
|---|---|---|---|
| Llama 3.1 405B | Відмінна | ~50 | $3.50 |
| Llama 3.1 70B | Дуже добра | ~150 | $0.88 |
| Llama 3.1 8B | Добра | ~400 | $0.18 |
| Qwen2.5-Coder 32B | Код-специфічна | ~120 | $0.80 |
Терміни
- Базова інтеграція: 0.5 дня
- Fine-tuning конвеєр: 3–5 днів (+ час навчання)
- A/B тестування моделей: 1–2 дні







