ИИ-ротоскопирование
Ручное ротоскопирование актёра в 4-минутной сцене — это 5 760 кадров при 24fps. Опытный ротоскопер закрывает 30–60 кадров в день. Итого: 3–6 месяцев работы на один эпизод. ИИ-ротоскопирование переводит эту задачу в категорию «сделать за неделю».
Что делает ИИ-ротоскопинг под капотом
Современный подход — не просто сегментация по кадрам, а трекинг маски во времени с temporal consistency. Ключевые инструменты:
SAM 2 (Segment Anything Model 2) от Meta — прямо создан для видеосегментации. Задаёшь точку или bounding box на первом кадре, модель пропагирует маску через весь ролик с учётом движения. На практике: точность сохраняется на 80–120 кадрах без дополнительных промптов, дальше нужна коррекция. Memory module внутри SAM 2 держит контекст предыдущих кадров.
import torch
from sam2.build_sam import build_sam2_video_predictor
predictor = build_sam2_video_predictor(
"sam2_hiera_large.yaml",
"sam2_hiera_large.pt",
device="cuda"
)
with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
state = predictor.init_state(video_path="scene_001.mp4")
# Задаём точку на актёре в кадре 0
_, _, masks = predictor.add_new_points_or_box(
state, frame_idx=0, obj_id=1,
points=[[540, 380]], labels=[1]
)
# Пропагация маски по всему видео
for frame_idx, obj_ids, masks in predictor.propagate_in_video(state):
save_mask(frame_idx, masks)
Runway ML Gen-3 / Adobe Firefly Video — коммерческие инструменты с ИИ-ассистом, хороши для быстрых задач, но не дают пиксельного контроля.
RVM (Robust Video Matting) — специализирован на отделении человека от фона, работает в реальном времени (30fps на RTX 3080). Лучше SAM 2 для сцен с развевающимися волосами и полупрозрачными элементами.
Главная боль: flickering и temporal artifacts
Когда сегментируешь кадр за кадром независимо, маска «мерцает» — края прыгают на 2–5 пикселей между кадрами. В готовом compositing это выглядит как дрожащий контур. Решение — temporal smoothing:
- Optical flow консистентность: применяем RAFT или FlowFormer для вычисления оптического потока между кадрами, маску из кадра N варпируем в кадр N+1 и усредняем с предсказанием модели.
- Post-processing с morphological operations: небольшой erode/dilate по маске убирает шум, gaussian blur на краях делает переход плавным.
- Alpha матирование: вместо бинарной маски (0/1) используем soft alpha (0..1) на краях — через GuidedFilter или Deep Image Matting.
На практике: SAM 2 без temporal smoothing даёт edge flickering на быстром движении. После применения RAFT + alpha refinement через ViTMatte — перемещение краёв маски между кадрами < 1.2 px (субпиксельная стабильность).
Workflow в продакшн
- Первичная автоматическая сегментация SAM 2 / RVM — весь ролик
- QA: автоматический детектор flickering (variance маски в скользящем окне 5 кадров > threshold)
- Ручная коррекция только проблемных участков — через Silhouette, Mocha Pro или After Effects Roto Brush
- Alpha refinement через ViTMatte для волос и полупрозрачных тканей
- Экспорт EXR-последовательности с alpha-каналом
Соотношение ручной работы к автоматике зависит от сложности сцены: простая сцена (статичная камера, чёткий контур) — 90/10. Сложная (толпа, быстрое движение, схожие цвета объекта и фона) — 60/40.
Сроки
| Объём | Автоматика + QA | Полный pipeline |
|---|---|---|
| Короткий ролик до 2 мин | 1–3 дня | 3–7 дней |
| Эпизод 20–40 мин | 1–2 недели | 3–5 недель |
| Полнометражный фильм | 4–8 недель | 3–4 месяца |
Стоимость зависит от требований к качеству, сложности сцен и формата сдачи материала.







