Інтеграція Groq для швидкого інфренсу LLM
Groq використовує власний LPU (Language Processing Unit) — спеціалізований процесор для інфренсу мовних моделей. Результат: 500–800 токенів/сек vs 50–100 у GPU-провайдерів. Це відкриває сценарії, які раніше були неможливі: real-time транскрипція з миттєвими відповідями, інтерактивні код-асистенти без помітних затримок.
Базова інтеграція
from groq import Groq, AsyncGroq
client = Groq(api_key="GROQ_API_KEY")
async_client = AsyncGroq(api_key="GROQ_API_KEY")
# Синхронний запит — помітно швидше ніж інші провайдери
response = client.chat.completions.create(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": "Поясни концепцію"}],
temperature=0,
max_tokens=1024,
)
print(response.choices[0].message.content)
# Асинхронно
async def fast_query(prompt: str) -> str:
response = await async_client.chat.completions.create(
model="llama-3.1-8b-instant", # Екстремально швидкий
messages=[{"role": "user", "content": prompt}],
)
return response.choices[0].message.content
# Потокова передача (низька затримка до першого токена)
def stream_fast(prompt: str):
with client.chat.completions.stream(
model="llama-3.1-70b-versatile",
messages=[{"role": "user", "content": prompt}],
) as stream:
for text in stream.text_stream:
yield text
Транскрипція аудіо (Whisper на Groq)
# Whisper на Groq — найшвидша транскрипція в хмарі
with open("audio.mp3", "rb") as audio_file:
transcription = client.audio.transcriptions.create(
file=("audio.mp3", audio_file.read()),
model="whisper-large-v3",
language="ru",
response_format="verbose_json", # З таймкодами
)
print(transcription.text)
# Переклад
translation = client.audio.translations.create(
file=("audio.mp3", open("audio.mp3", "rb").read()),
model="whisper-large-v3",
)
Доступні моделі Groq
| Модель | Швидкість | Контекст | Використання |
|---|---|---|---|
| llama-3.1-70b-versatile | ~330 токен/с | 128K | Загальні завдання |
| llama-3.1-8b-instant | ~750 токен/с | 128K | Realtime додатки |
| mixtral-8x7b-32768 | ~500 токен/с | 32K | Довгий контекст |
| gemma2-9b-it | ~500 токен/с | 8K | Швидкі завдання |
| whisper-large-v3 | — | — | Аудіо |
Коли Groq — правильний вибір
Groq оптимальний для:
- Чат-бота з вимогою < 500 мс до першого токена
- Realtime code completion (IDE асистент)
- Пакетної обробки з жорсткими SLA
- Транскрипції аудіо в реальному часі
Groq не підходить для:
- Завдань з дуже великим виходом (вартість вища для довгих відповідей)
- Коли важлива максимальна точність (Llama 70B < Claude Opus/GPT-4o)
- Вартості при високих навантаженнях
Ціни Groq
| Модель | Вхід (1M) | Вихід (1M) |
|---|---|---|
| Llama 3.1 70B | $0.59 | $0.79 |
| Llama 3.1 8B | $0.05 | $0.08 |
| Whisper Large v3 | $0.111 / час аудіо | — |
Терміни виконання
- Базова інтеграція: 0.5 дня
- Realtime чат зі streaming: 1–2 дні
- Whisper транскрипція pipeline: 2–3 дні







