AI-система управління складськими роботами
Управління флотом роботів на складі — задача комбінаторної оптимізації в реальному часі. Традиційні WMS (Warehouse Management Systems) розв'язують це евристиками: найближчий доступний робот, найкоротший шлях, FIFO-черга задач. RL-підхід оптимізує всю систему як единого цілого, враховуючи взаємодії роботів, затори та пріоритети замовлень.
Типи складських роботів
AMR (Autonomous Mobile Robots): Kiva/Amazon Robotics-стиль — підвозять полиці до операторів збірки. Вільна навігація, без рельсів.
AGV (Automated Guided Vehicles): рухаються по фіксованих маршрутах (магнітна лента, QR-коди). Простіше в управлінні, менше гнучкості.
Robotic Arms: стаціонарні маніпулятори для pick & place. Управляються окремо, AMR/AGV доставляють їм товар.
Система управління має оркеструвати змішаний флот, що значно складніше, ніж однорідний.
Multi-Agent Reinforcement Learning
Центральна частина системи — MARL (Multi-Agent RL). Кожен робот — окремий агент, але навчання централізоване (CTDE — Centralized Training, Decentralized Execution).
Алгоритм: QMIX або MAPPO — найкращі результати для кооперативних багатоагентних задач. QMIX розкладний: global Q = f(Q_i для кожного агента), що масштабується до 100+ роботів.
Стан агента:
- Поточна позиція на карті (grid або continuous)
- Поточне завдання та прогрес
- Рівень заряду батареї
- Глобальна черга задач (top-N приоритетні)
- Позиції сусідніх роботів у радіусі 10 м
Дії:
- Прийняти наступне завдання з черги
- Перейти на зарядку
- Чекати (при затрі)
Функція винагород: throughput замовлень за годину - штраф за чекання роботів - штраф за розрядження батареї - штраф за deadlock.
Планувальник задач
Поверх MARL працює задачний планувальник. Він розв'язує:
- Task Assignment: який робот берує яке завдання. Алгоритм Hungarian + RL-корректировки пріоритетів
- Path Planning: побудова маршрутів без конфліктів. CBS (Conflict-Based Search) для 10-50 роботів, PIBT для 50+
- Charging Scheduling: коли відправляти роботів на зарядку, щоб не створювати дефіцит у пікові години
| Метрика | Без оптимізації | З MARL |
|---|---|---|
| Замовлень/година (100 роботів) | 800-1000 | 1200-1500 |
| Частота deadlock | 2-5% | < 0.1% |
| Середній час виконання замовлення | 12 хв | 7-9 хв |
| Простій роботів | 25-35% | 10-15% |
Інтеграція з WMS
Система управління роботами інтегрується з WMS через стандартні API:
- SAP EWM: RFC/BAPI інтерфейси, синхронізація задач кожні 30-60 сек
- Manhattan Associates WMS: REST API, webhook-сповіщення
- Власний WMS: пряма інтеграція через PostgreSQL або Kafka
Архітектура: WMS → Task Queue (Redis/Kafka) → Robot Fleet Controller (Python/Go) → Individual Robot (ROS2).
Предиктивна зарядка та обслуговування
RL-агент передбачає потребу в зарядці на основі прогнозованої нагрузки на наступні 2-4 години. Якщо через 90 хвилин очікується пік замовлень, роботи з 40% зарядом відправляються на превентивну зарядку.
Моніторинг стану роботів:
- Encoder drift (одометрія): порівняння одометрії з SLAM-позицією
- Motor current anomalies: виявлення зносу коліс/моторів
- SLAM quality degradation: метрика локалізаційної впевненості
Симуляція та навчання
Симулятор: користувацьке середовище на базі PyBullet або MuJoCo для AMR. Для AGV достатньо 2D-симуляції в Python з урахуванням кінематики.
Генерація трафіку в симуляторі: історична статистика замовлень WMS, паттерни пікової нагрузки (година, день, сезонність). Навчання: 500M+ кроків симуляції, 2-4 тижні на 8× GPU-кластері.
Sim-to-real gap: головна проблема. Рішення — domain randomization (±20% швидкості роботів, випадкові затримки, ймовірність відмови датчика 0.1%) + Real-to-sim: періодичне оновлення симулятора на основі реальних логів.
Терміни реалізації: базова система з централізованим планувальником — 3-4 місяці. Повноцінний MARL з предиктивними функціями — 6-9 місяців залежно від складності складу та кількості роботів.







