Дотонування мовних моделей Gemini (Google)
Google надає дотонування для моделей сімейства Gemini через Vertex AI та Google AI Studio. Дотонування доступне для Gemini 1.5 Flash та Gemini 1.5 Pro, а також для новіших версій у серії Gemini 2.x. Vertex AI — платформа на рівні виробництва з інфраструктурою MLOps, управлінням версій моделей та інтеграцією з екосистемою Google Cloud.
Два шляхи до дотонування Gemini
Google AI Studio (Gemini API): швидкий старт для експериментів. Доступне через веб-інтерфейс та API. Підходить для малих наборів даних та прототипування. Обмеження: менше контролю над гіперпараметрами, немає SLA для enterprise.
Vertex AI Supervised Fine-Tuning: готовий до виробництва підхід. Повний контроль над тренуванням, інтеграція з Vertex AI Pipelines, моніторинг через Cloud Monitoring, версіонування через Model Registry. Це шлях, який використовується для серйозних проектів виробництва.
Формат даних та вимоги
Дотонування Gemini приймає дані в форматі JSONL, де кожен рядок — один приклад розмови:
{
"contents": [
{
"role": "user",
"parts": [{"text": "Класифікуй запит клієнта за категорією: 'Не можу увійти в особистий кабінет'"}]
},
{
"role": "model",
"parts": [{"text": "{\"category\": \"authentication\", \"priority\": \"high\", \"department\": \"tech_support\"}"}]
}
]
}
Мінімальний обсяг: 100 прикладів. Рекомендований для стабільної якості: 500–5000. Максимальний розмір набору даних: 1 ГБ.
Запуск через Vertex AI SDK
import vertexai
from vertexai.tuning import sft
vertexai.init(project="my-project", location="us-central1")
sft_tuning_job = sft.train(
source_model="gemini-1.5-flash-002",
train_dataset="gs://my-bucket/train.jsonl",
validation_dataset="gs://my-bucket/val.jsonl",
epochs=5,
adapter_size=4, # LoRA rank
learning_rate_multiplier=1.0,
tuned_model_display_name="gemini-flash-support-classifier"
)
print(sft_tuning_job.tuned_model_endpoint_name)
Тренування на Vertex AI використовує адаптери LoRA (adapter_size відповідає рангу), що робить процес значно дешевшим за повне дотонування. Час тренування: від 30 хвилин до кількох годин залежно від обсягу даних.
Мультимодальне дотонування: робота з зображеннями
Ключева перевага Gemini — вроджена мультимодальність. Дотонування підтримує навчальні приклади, які містять зображення поряд із текстом:
{
"contents": [
{
"role": "user",
"parts": [
{"inline_data": {"mime_type": "image/jpeg", "data": "...base64..."}},
{"text": "Виявити дефект на зображенні деталі"}
]
},
{
"role": "model",
"parts": [{"text": "{\"defect_type\": \"crack\", \"location\": \"top_left\", \"severity\": \"critical\"}"}]
}
]
}
Це відкриває завдання, недоступні для текстових моделей: інспекція якості на виробництві, аналіз медичних знімків, візуальна класифікація документів.
Практичний результат: промислова інспекція
Завдання: класифікація дефектів зварних швів за фотографіями. Набір даних: 2400 зображень із анотаціями (7 класів дефектів).
До дотонування (Gemini 1.5 Flash з детальним промптом): точність 67%, багато помилкових позитивів на клас "норма".
Після дотонування (5 епох, adapter_size=8): точність 91%, F1 для критичних дефектів 0.94. Час логічного висновку без змін (~800мс за зображення через API).
Порівняння дотонування Gemini з альтернативами
| Критерій | Gemini (Vertex AI) | GPT-4o (OpenAI) | Llama (self-hosted) |
|---|---|---|---|
| Мультимодальність | Так (вроджена) | Так | Залежить від моделі |
| На місці | Ні | Ні | Так |
| Контроль ваг | Ні | Ні | Так |
| Інтеграція MLOps | Google Cloud | Обмежена | Самокеровна |
| Мінімальний набір даних | 100 прикладів | 50 прикладів | 50–100 прикладів |
Графік проекту
- Підготовка та валідація набору даних: 2–4 тижні
- Тренування та налаштування гіперпараметрів: 1–2 тижні
- Тестування та інтеграція: 1–2 тижні
- Усього: 4–8 тижнів від старту до виробництва







