AI Rotoscoping System

We design and deploy artificial intelligence systems: from prototype to production-ready solutions. Our team combines expertise in machine learning, data engineering and MLOps to make AI work not in the lab, but in real business.
Showing 1 of 1 servicesAll 1566 services
AI Rotoscoping System
Medium
~2-4 weeks
FAQ
AI Development Areas
AI Solution Development Stages
Latest works
  • image_website-b2b-advance_0.png
    B2B ADVANCE company website development
    1212
  • image_web-applications_feedme_466_0.webp
    Development of a web application for FEEDME
    1161
  • image_websites_belfingroup_462_0.webp
    Website development for BELFINGROUP
    852
  • image_ecommerce_furnoro_435_0.webp
    Development of an online store for the company FURNORO
    1041
  • image_logo-advance_0.png
    B2B Advance company logo design
    561
  • image_crm_enviok_479_0.webp
    Development of a web application for Enviok
    822

ИИ-ротоскопирование

Ручное ротоскопирование актёра в 4-минутной сцене — это 5 760 кадров при 24fps. Опытный ротоскопер закрывает 30–60 кадров в день. Итого: 3–6 месяцев работы на один эпизод. ИИ-ротоскопирование переводит эту задачу в категорию «сделать за неделю».

Что делает ИИ-ротоскопинг под капотом

Современный подход — не просто сегментация по кадрам, а трекинг маски во времени с temporal consistency. Ключевые инструменты:

SAM 2 (Segment Anything Model 2) от Meta — прямо создан для видеосегментации. Задаёшь точку или bounding box на первом кадре, модель пропагирует маску через весь ролик с учётом движения. На практике: точность сохраняется на 80–120 кадрах без дополнительных промптов, дальше нужна коррекция. Memory module внутри SAM 2 держит контекст предыдущих кадров.

import torch
from sam2.build_sam import build_sam2_video_predictor

predictor = build_sam2_video_predictor(
    "sam2_hiera_large.yaml",
    "sam2_hiera_large.pt",
    device="cuda"
)

with torch.inference_mode(), torch.autocast("cuda", dtype=torch.bfloat16):
    state = predictor.init_state(video_path="scene_001.mp4")
    # Задаём точку на актёре в кадре 0
    _, _, masks = predictor.add_new_points_or_box(
        state, frame_idx=0, obj_id=1,
        points=[[540, 380]], labels=[1]
    )
    # Пропагация маски по всему видео
    for frame_idx, obj_ids, masks in predictor.propagate_in_video(state):
        save_mask(frame_idx, masks)

Runway ML Gen-3 / Adobe Firefly Video — коммерческие инструменты с ИИ-ассистом, хороши для быстрых задач, но не дают пиксельного контроля.

RVM (Robust Video Matting) — специализирован на отделении человека от фона, работает в реальном времени (30fps на RTX 3080). Лучше SAM 2 для сцен с развевающимися волосами и полупрозрачными элементами.

Главная боль: flickering и temporal artifacts

Когда сегментируешь кадр за кадром независимо, маска «мерцает» — края прыгают на 2–5 пикселей между кадрами. В готовом compositing это выглядит как дрожащий контур. Решение — temporal smoothing:

  1. Optical flow консистентность: применяем RAFT или FlowFormer для вычисления оптического потока между кадрами, маску из кадра N варпируем в кадр N+1 и усредняем с предсказанием модели.
  2. Post-processing с morphological operations: небольшой erode/dilate по маске убирает шум, gaussian blur на краях делает переход плавным.
  3. Alpha матирование: вместо бинарной маски (0/1) используем soft alpha (0..1) на краях — через GuidedFilter или Deep Image Matting.

На практике: SAM 2 без temporal smoothing даёт edge flickering на быстром движении. После применения RAFT + alpha refinement через ViTMatte — перемещение краёв маски между кадрами < 1.2 px (субпиксельная стабильность).

Workflow в продакшн

  1. Первичная автоматическая сегментация SAM 2 / RVM — весь ролик
  2. QA: автоматический детектор flickering (variance маски в скользящем окне 5 кадров > threshold)
  3. Ручная коррекция только проблемных участков — через Silhouette, Mocha Pro или After Effects Roto Brush
  4. Alpha refinement через ViTMatte для волос и полупрозрачных тканей
  5. Экспорт EXR-последовательности с alpha-каналом

Соотношение ручной работы к автоматике зависит от сложности сцены: простая сцена (статичная камера, чёткий контур) — 90/10. Сложная (толпа, быстрое движение, схожие цвета объекта и фона) — 60/40.

Сроки

Объём Автоматика + QA Полный pipeline
Короткий ролик до 2 мин 1–3 дня 3–7 дней
Эпизод 20–40 мин 1–2 недели 3–5 недель
Полнометражный фильм 4–8 недель 3–4 месяца

Стоимость зависит от требований к качеству, сложности сцен и формата сдачи материала.