Дообучення Stable Diffusion методом LoRA

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.
Показано 1 з 1Усі 1566 послуг
Дообучення Stable Diffusion методом LoRA
Середній
~2-3 дні
Часті запитання

Напрямки AI-розробки

Етапи розробки AI-рішення

Останні роботи

  • image_website-b2b-advance_0.webp
    Розробка сайту компанії B2B ADVANCE
    1284
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1196
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    901
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1119
  • image_logo-advance_0.webp
    Розробка логотипу компанії B2B Advance
    586
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    853

Точне налаштування стабільної дифузії через LoRA

LoRA (Low-Rank Adaptation) - ефективний метод донавчання SD з мінімальною кількістю параметрів. LoRA-файл важить 10-150 MB проти 6-7 GB повної моделі, навчається за 30-120 хвилин на споживчому GPU, застосовується поверх базової моделі з регульованою силою.

Відмінність LoRA від DreamBooth

Параметр DreamBooth LoRA
Змінює Всю модель Тільки дельта-матриці
Розмір результату 6-7 GB 10-150 MB
Час навчання 30-60 хв 30-120 хв
Комбінування Ні До 5 LoRA одночасно
Застосування Одна модель Будь-яка сумісна

Навчання LoRA для стилю

# kohya-ss/sd-scripts — стандарт обучения LoRA
git clone https://github.com/kohya-ss/sd-scripts
cd sd-scripts
pip install -r requirements.txt

python train_network.py \
    --pretrained_model_name_or_path="stabilityai/stable-diffusion-xl-base-1.0" \
    --dataset_config="dataset.toml" \
    --output_dir="./lora_output" \
    --output_name="my_style_v1" \
    --network_module="networks.lora" \
    --network_dim=32 \
    --network_alpha=16 \
    --learning_rate=1e-4 \
    --max_train_epochs=10 \
    --train_batch_size=2 \
    --save_every_n_epochs=2 \
    --mixed_precision="fp16" \
    --xformers

dataset.toml:

[general]
shuffle_caption = true
caption_dropout_rate = 0.05

[[datasets]]
resolution = 1024
batch_size = 2

  [[datasets.subsets]]
  image_dir = "./training_images"
  caption_extension = ".txt"
  num_repeats = 10

Автоматичний підпис зображень

from transformers import BlipProcessor, BlipForConditionalGeneration
from PIL import Image
import os

processor = BlipProcessor.from_pretrained("Salesforce/blip-image-captioning-large")
caption_model = BlipForConditionalGeneration.from_pretrained("Salesforce/blip-image-captioning-large")

def auto_caption_dataset(
    images_dir: str,
    trigger_word: str = "mystyle",
    style_suffix: str = "in the style of mystyle"
) -> None:
    for img_file in os.listdir(images_dir):
        if not img_file.endswith((".jpg", ".png", ".webp")):
            continue

        img = Image.open(os.path.join(images_dir, img_file)).convert("RGB")
        inputs = processor(img, return_tensors="pt")
        caption = processor.decode(
            caption_model.generate(**inputs, max_new_tokens=50)[0],
            skip_special_tokens=True
        )

        # Добавляем триггерное слово к подписи
        full_caption = f"{trigger_word}, {caption}, {style_suffix}"

        txt_path = os.path.join(images_dir, img_file.rsplit(".", 1)[0] + ".txt")
        with open(txt_path, "w", encoding="utf-8") as f:
            f.write(full_caption)

Застосування декількох LoRA

from diffusers import StableDiffusionXLPipeline
import torch

pipe = StableDiffusionXLPipeline.from_pretrained(
    "stabilityai/stable-diffusion-xl-base-1.0",
    torch_dtype=torch.float16
).to("cuda")

# Загружаем несколько LoRA
pipe.load_lora_weights("style_lora.safetensors", adapter_name="style")
pipe.load_lora_weights("character_lora.safetensors", adapter_name="character")

# Комбинируем с весами
pipe.set_adapters(["style", "character"], adapter_weights=[0.7, 0.5])

image = pipe(
    "mystyle character, cinematic scene, detailed background",
    guidance_scale=7.5,
    num_inference_steps=30
).images[0]

Типові завдання LoRA

Стиль художника: 50–200 зображень у цільовому стилі → LoRA відтворює стиль на нових промптах.

Конкретний продукт: 20–50 фото товару з підписами → LoRA генерує товар у різних сценах.

Персонаж (аніме/гра): 30–100 зображень персонажа → LoRA відтворює у різних позах.

Професійна фотографія: 200+ фото певного фотографа → LoRA переносить манеру зйомки.

Терміни: навчання LoRA (1000 кроків на RTX 3090) - 20-40 хвилин. Сервіс з власним навчанням своєї LoRA — 3–4 тижні.