Інтеграція Replicate для запуску відкритих AI-моделей
Replicate — хмарна платформа для запуску open-source AI моделей через API без необхідності керувати GPU-інфраструктурою. Містить тисячі моделей: Stable Diffusion, LLaMA, Whisper, CodeLlama та інші. Оплата – за час GPU.
Встановлення та базове використання
import replicate
# Генерация изображения через Stable Diffusion XL
output = replicate.run(
"stability-ai/sdxl:39ed52f2a78e934b3ba6e2a89f5b1c712de7dfea535525255b1aa35c5565e08b",
input={
"prompt": "A photorealistic cat wearing a space suit",
"width": 1024,
"height": 1024,
"num_outputs": 1,
}
)
print(output[0]) # URL изображения
Запуск LLM через Replicate
# LLaMA 2 70B через Replicate
for event in replicate.stream(
"meta/llama-2-70b-chat",
input={
"prompt": "Explain transformer architecture",
"max_new_tokens": 512,
"temperature": 0.7,
"system_prompt": "You are a helpful ML engineer."
}
):
print(str(event), end="")
Async та batch запити
import asyncio
import replicate
async def run_batch_inference(prompts: list[str]) -> list:
tasks = [
replicate.async_run(
"meta/llama-2-70b-chat",
input={"prompt": p, "max_new_tokens": 256}
)
for p in prompts
]
results = await asyncio.gather(*tasks)
return results
Коли використовувати Replicate
Replicate є оптимальним для: прототипування (не потрібен свій GPU), нерегулярного навантаження (немає сенсу тримати GPU 24/7), доступу до моделей, які складно деплоїти самостійно (великі дифузійні моделі). При постійному навантаженні власний деплой через HuggingFace або vLLM дешевше в 5-10 разів.







