Реализация дедупликации товаров при импорте из нескольких источников

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Реализация дедупликации товаров при импорте из нескольких источников
Сложная
~5 рабочих дней
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    874
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    851

Реализация дедупликации товаров при импорте из нескольких источников

Дедупликация — самая сложная часть мультипоставщикового импорта. Поставщики описывают один и тот же товар по-разному: разные артикулы, разные названия, разные штрихкоды или вовсе без них. Наивный подход «сравнить по названию» даёт 30–40% ложных совпадений и пропускает ещё столько же реальных дублей.

Стратегии идентификации дублей

Дедупликацию выстраивают последовательно: сначала жёсткие совпадения, потом нечёткие.

1. Точное совпадение по GTIN/EAN/UPC
2. Точное совпадение по артикулу производителя (MPN) + бренд
3. Нормализованное название + бренд
4. Нечёткое совпадение по тексту (fuzzy)
5. Ручная привязка через интерфейс

Каждый следующий уровень — менее надёжный, требует проверки или уверенного порога.

Нормализация перед сравнением

Перед сравнением данные нужно привести к единому виду:

class ProductNormalizer
{
    public function normalizeName(string $name): string
    {
        $name = mb_strtolower($name);
        $name = preg_replace('/\s+/', ' ', $name);
        $name = trim($name);

        // Убрать единицы измерения в скобках: "Кабель (1м)" → "Кабель 1м"
        $name = preg_replace('/\((\d+\s*[а-яa-z]+)\)/u', '$1', $name);

        // Нормализация числовых значений: "64 GB" → "64gb"
        $name = preg_replace('/(\d+)\s*(gb|tb|mb|мб|гб|тб)/ui', '$1$2', $name);
        $name = preg_replace('/(\d+)\s*(мгц|ghz|mhz)/ui', '$1$2', $name);

        // Стоп-слова для техники
        $stopWords = ['новый', 'оригинал', 'original', 'retail', 'box', 'версия'];
        foreach ($stopWords as $word) {
            $name = preg_replace('/\b' . preg_quote($word, '/') . '\b/ui', '', $name);
        }

        return trim(preg_replace('/\s+/', ' ', $name));
    }

    public function normalizeBarcode(string $barcode): string
    {
        // Привести к EAN-13: убрать ведущие нули, дополнить до 13 символов
        $barcode = preg_replace('/\D/', '', $barcode);
        $barcode = ltrim($barcode, '0');
        return str_pad($barcode, 13, '0', STR_PAD_LEFT);
    }

    public function normalizeBrand(string $brand): string
    {
        $map = [
            'самсунг' => 'samsung',
            'сяоми'   => 'xiaomi',
            'эппл'    => 'apple',
            'lg'      => 'lg',
            'l.g.'    => 'lg',
        ];
        $key = mb_strtolower(trim($brand));
        return $map[$key] ?? $key;
    }
}

Fingerprint-подход

Вместо сравнения на лету — вычислять «отпечаток» при импорте и сравнивать отпечатки:

class ProductFingerprint
{
    public function __construct(private ProductNormalizer $normalizer) {}

    public function compute(SupplierProductDTO $dto): array
    {
        $prints = [];

        // Fingerprint 1: штрихкод (самый надёжный)
        if ($dto->barcode) {
            $prints['barcode'] = 'bc:' . $this->normalizer->normalizeBarcode($dto->barcode);
        }

        // Fingerprint 2: артикул + бренд
        if ($dto->sku && $dto->brand) {
            $prints['sku_brand'] = 'sb:' . $this->normalizer->normalizeBrand($dto->brand)
                . ':' . mb_strtolower(trim($dto->sku));
        }

        // Fingerprint 3: нормализованное название + бренд
        if ($dto->brand) {
            $prints['name_brand'] = 'nb:' . $this->normalizer->normalizeBrand($dto->brand)
                . ':' . $this->normalizer->normalizeName($dto->name);
        }

        return $prints;
    }
}

Таблица отпечатков:

CREATE TABLE product_fingerprints (
    id          BIGSERIAL PRIMARY KEY,
    product_id  BIGINT REFERENCES products(id) ON DELETE CASCADE,
    type        VARCHAR(20) NOT NULL,  -- 'barcode', 'sku_brand', 'name_brand'
    value       VARCHAR(500) NOT NULL,
    UNIQUE(type, value)
);
CREATE INDEX idx_fingerprints_value ON product_fingerprints(value);

Алгоритм дедупликации при импорте

class DeduplicationService
{
    public function findOrCreateProduct(SupplierProductDTO $dto): Product
    {
        $prints = $this->fingerprint->compute($dto);

        // Поиск по отпечаткам в порядке надёжности
        foreach (['barcode', 'sku_brand', 'name_brand'] as $type) {
            if (!isset($prints[$type])) continue;

            $existing = ProductFingerprint::where('type', $type)
                ->where('value', $prints[$type])
                ->first();

            if ($existing) {
                // Добавить новые отпечатки к найденному товару
                $this->mergeFingerprints($existing->product_id, $prints, $type);
                return $existing->product;
            }
        }

        // Нечёткое совпадение для ненайденных
        if ($candidate = $this->fuzzyMatch($dto)) {
            // Если схожесть > порога — считаем дублем, но логируем для проверки
            $this->logFuzzyMatch($dto, $candidate);
            if ($candidate['score'] >= 0.92) {
                return $candidate['product'];
            }
        }

        // Создать новый товар
        return $this->createNewProduct($dto, $prints);
    }
}

Нечёткое совпадение

Для нечёткого сравнения используется алгоритм Jaro-Winkler или TF-IDF + cosine similarity. Для PHP-проектов удобна библиотека yiisoft/strings или собственная реализация:

class FuzzyMatcher
{
    public function jaroWinkler(string $a, string $b): float
    {
        // Jaro similarity
        $maxDist = (int) floor(max(mb_strlen($a), mb_strlen($b)) / 2) - 1;
        $matches = 0;
        $aMatched = [];
        $bMatched = [];

        for ($i = 0; $i < mb_strlen($a); $i++) {
            $start = max(0, $i - $maxDist);
            $end   = min($i + $maxDist + 1, mb_strlen($b));

            for ($j = $start; $j < $end; $j++) {
                if (!isset($bMatched[$j]) && mb_substr($a, $i, 1) === mb_substr($b, $j, 1)) {
                    $aMatched[$i] = true;
                    $bMatched[$j] = true;
                    $matches++;
                    break;
                }
            }
        }

        if ($matches === 0) return 0.0;

        // Winkler prefix bonus
        $prefix = 0;
        for ($i = 0; $i < min(4, mb_strlen($a), mb_strlen($b)); $i++) {
            if (mb_substr($a, $i, 1) === mb_substr($b, $i, 1)) $prefix++;
            else break;
        }

        $jaro = ($matches / mb_strlen($a) + $matches / mb_strlen($b) + 1.0) / 3;
        return $jaro + $prefix * 0.1 * (1 - $jaro);
    }
}

Очередь ручной проверки

Товары, попавшие в «серую зону» (score 0.75–0.92), уходят в очередь ручной модерации:

CREATE TABLE dedup_review_queue (
    id              BIGSERIAL PRIMARY KEY,
    new_dto         JSONB NOT NULL,
    candidate_id    BIGINT REFERENCES products(id),
    score           FLOAT,
    match_type      VARCHAR(20),  -- 'fuzzy_name', 'fuzzy_sku'
    status          VARCHAR(20) DEFAULT 'pending',  -- 'pending','merged','rejected'
    reviewed_by     INT REFERENCES users(id),
    created_at      TIMESTAMP DEFAULT NOW()
);

Интерфейс модерации показывает рядом два товара с подсвеченными совпадениями — оператор одним кликом подтверждает или отклоняет слияние.

Метрики качества

Отслеживайте:

Метрика Норма
Precision (доля верных слияний) > 98% для barcode, > 95% для sku_brand
Recall (доля найденных дублей) > 85%
Доля товаров в ручной очереди < 5% от импорта
Время обработки одного товара < 50 мс

Сроки реализации

  • Нормализатор + fingerprint-схема + точное совпадение: 2 дня
  • Нечёткое совпадение (Jaro-Winkler): 1 день
  • Очередь ручной модерации + интерфейс: 2 дня
  • Метрики + логирование решений: 1 день

Итого: 5–6 рабочих дней.