Реалізація дедуплікації товарів при імпорті з кількох джерел

Наша компанія займається розробкою, підтримкою та обслуговуванням сайтів будь-якої складності. Від простих односторінкових сайтів до масштабних кластерних систем, побудованих на мікро сервісах. Досвід розробників підтверджено сертифікатами від вендорів.

Розробка та обслуговування будь-яких видів сайтів:

Інформаційні сайти або веб-програми
Сайти візитки, landing page, корпоративні сайти, онлайн каталоги, квіз, промо-сайти, блоги, ресурси новин, інформаційні портали, форуми, агрегатори
Сайти або веб-програми електронної комерції
Інтернет-магазини, B2B-портали, маркетплейси, онлайн-обмінники, кешбек-сайти, біржі, дропшиппінг-платформи, парсери товарів
Веб-програми для управління бізнес-процесами
CRM-системи, ERP-системи, корпоративні портали, системи управління виробництвом, парсери інформації
Сайти або веб-програми електронних послуг
Дошки оголошень, онлайн-школи, онлайн-кінотеатри, конструктори сайтів, портали надання електронних послуг, відеохостинги, тематичні портали

Це лише деякі з технічних типів сайтів, з якими ми працюємо, і кожен із них може мати свої специфічні особливості та функціональність, а також бути адаптованим під конкретні потреби та цілі клієнта.

Пропоновані послуги
Показано 1 з 1 послугУсі 2065 послуг
Реалізація дедуплікації товарів при імпорті з кількох джерел
Складна
~5 робочих днів
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Розробка веб-додатків для компанії FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Розробка веб-сайту для компанії БЕЛФІНГРУП
    874
  • image_ecommerce_furnoro_435_0.webp
    Розробка інтернет магазину для компанії FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Розробка веб-додатків для компанії Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851

Реалізація дедублікації товарів при імпорті з кількох джерел

Дедублікація — найскладніша частина мультипоставницького імпорту. Постачальники описують один і той же товар по-різному: різні артикули, різні назви, різні штрих-коди або взагалі без них. Наївний підхід «порівняти за назвою» дає 30–40% хибних збігів і пропускає стільки ж справжніх дублів.

Стратегії ідентифікації дублів

Дедублікацію будують послідовно: спочатку жорсткі збіги, потім нечіткі.

1. Точний збіг за GTIN/EAN/UPC
2. Точний збіг за артикулом виробника (MPN) + бренд
3. Нормалізована назва + бренд
4. Нечіткий текстовий збіг (fuzzy)
5. Ручна привязка через інтерфейс

Кожен наступний рівень менш надійний, вимагає перевірки або впевненого порога.

Нормалізація перед порівнянням

Дані потрібно привести до единого вигляду:

class ProductNormalizer
{
    public function normalizeName(string $name): string
    {
        $name = mb_strtolower($name);
        $name = preg_replace('/\s+/', ' ', $name);
        $name = trim($name);

        // Прибрати одиниці виміру в дужках: "Кабель (1м)" → "Кабель 1м"
        $name = preg_replace('/\((\d+\s*[а-яa-z]+)\)/u', '$1', $name);

        // Нормалізація числових значень: "64 GB" → "64gb"
        $name = preg_replace('/(\d+)\s*(gb|tb|mb|мб|гб|тб)/ui', '$1$2', $name);
        $name = preg_replace('/(\d+)\s*(мгц|ghz|mhz)/ui', '$1$2', $name);

        // Стоп-слова для техніки
        $stopWords = ['новий', 'оригінал', 'original', 'retail', 'box', 'версія'];
        foreach ($stopWords as $word) {
            $name = preg_replace('/\b' . preg_quote($word, '/') . '\b/ui', '', $name);
        }

        return trim(preg_replace('/\s+/', ' ', $name));
    }

    public function normalizeBarcode(string $barcode): string
    {
        // Привести до EAN-13: прибрати ведучі нулі, доповнити до 13 символів
        $barcode = preg_replace('/\D/', '', $barcode);
        $barcode = ltrim($barcode, '0');
        return str_pad($barcode, 13, '0', STR_PAD_LEFT);
    }

    public function normalizeBrand(string $brand): string
    {
        $map = [
            'самсунг' => 'samsung',
            'сяоми'   => 'xiaomi',
            'еппл'    => 'apple',
            'lg'      => 'lg',
            'l.g.'    => 'lg',
        ];
        $key = mb_strtolower(trim($brand));
        return $map[$key] ?? $key;
    }
}

Fingerprint-підхід

Замість порівняння на льету — вичисляти «відбиток» при імпорті та порівнювати відбитки:

class ProductFingerprint
{
    public function __construct(private ProductNormalizer $normalizer) {}

    public function compute(SupplierProductDTO $dto): array
    {
        $prints = [];

        // Fingerprint 1: штрих-код (найнадійніший)
        if ($dto->barcode) {
            $prints['barcode'] = 'bc:' . $this->normalizer->normalizeBarcode($dto->barcode);
        }

        // Fingerprint 2: артикул + бренд
        if ($dto->sku && $dto->brand) {
            $prints['sku_brand'] = 'sb:' . $this->normalizer->normalizeBrand($dto->brand)
                . ':' . mb_strtolower(trim($dto->sku));
        }

        // Fingerprint 3: нормалізована назва + бренд
        if ($dto->brand) {
            $prints['name_brand'] = 'nb:' . $this->normalizer->normalizeBrand($dto->brand)
                . ':' . $this->normalizer->normalizeName($dto->name);
        }

        return $prints;
    }
}

Таблиця відбитків:

CREATE TABLE product_fingerprints (
    id          BIGSERIAL PRIMARY KEY,
    product_id  BIGINT REFERENCES products(id) ON DELETE CASCADE,
    type        VARCHAR(20) NOT NULL,  -- 'barcode', 'sku_brand', 'name_brand'
    value       VARCHAR(500) NOT NULL,
    UNIQUE(type, value)
);
CREATE INDEX idx_fingerprints_value ON product_fingerprints(value);

Алгоритм дедублікації при імпорті

class DeduplicationService
{
    public function findOrCreateProduct(SupplierProductDTO $dto): Product
    {
        $prints = $this->fingerprint->compute($dto);

        // Пошук за відбитками в порядку надійності
        foreach (['barcode', 'sku_brand', 'name_brand'] as $type) {
            if (!isset($prints[$type])) continue;

            $existing = ProductFingerprint::where('type', $type)
                ->where('value', $prints[$type])
                ->first();

            if ($existing) {
                // Додати нові відбитки до знайденого товару
                $this->mergeFingerprints($existing->product_id, $prints, $type);
                return $existing->product;
            }
        }

        // Нечіткий збіг для ненайденого
        if ($candidate = $this->fuzzyMatch($dto)) {
            // Якщо схожість > порог — вважаємо дублем, але логуємо для перевірки
            $this->logFuzzyMatch($dto, $candidate);
            if ($candidate['score'] >= 0.92) {
                return $candidate['product'];
            }
        }

        // Створити новий товар
        return $this->createNewProduct($dto, $prints);
    }
}

Нечіткий збіг

Для нечіткого порівняння використовується алгоритм Jaro-Winkler або TF-IDF + cosine similarity. Для PHP-проектів зручна бібліотека yiisoft/strings або власна реалізація:

class FuzzyMatcher
{
    public function jaroWinkler(string $a, string $b): float
    {
        // Jaro similarity
        $maxDist = (int) floor(max(mb_strlen($a), mb_strlen($b)) / 2) - 1;
        $matches = 0;
        $aMatched = [];
        $bMatched = [];

        for ($i = 0; $i < mb_strlen($a); $i++) {
            $start = max(0, $i - $maxDist);
            $end   = min($i + $maxDist + 1, mb_strlen($b));

            for ($j = $start; $j < $end; $j++) {
                if (!isset($bMatched[$j]) && mb_substr($a, $i, 1) === mb_substr($b, $j, 1)) {
                    $aMatched[$i] = true;
                    $bMatched[$j] = true;
                    $matches++;
                    break;
                }
            }
        }

        if ($matches === 0) return 0.0;

        // Winkler prefix bonus
        $prefix = 0;
        for ($i = 0; $i < min(4, mb_strlen($a), mb_strlen($b)); $i++) {
            if (mb_substr($a, $i, 1) === mb_substr($b, $i, 1)) $prefix++;
            else break;
        }

        $jaro = ($matches / mb_strlen($a) + $matches / mb_strlen($b) + 1.0) / 3;
        return $jaro + $prefix * 0.1 * (1 - $jaro);
    }
}

Черга ручної перевірки

Товари, що потрапили в «сіру зону» (score 0.75–0.92), йдуть в чергу ручної модерації:

CREATE TABLE dedup_review_queue (
    id              BIGSERIAL PRIMARY KEY,
    new_dto         JSONB NOT NULL,
    candidate_id    BIGINT REFERENCES products(id),
    score           FLOAT,
    match_type      VARCHAR(20),  -- 'fuzzy_name', 'fuzzy_sku'
    status          VARCHAR(20) DEFAULT 'pending',  -- 'pending','merged','rejected'
    reviewed_by     INT REFERENCES users(id),
    created_at      TIMESTAMP DEFAULT NOW()
);

Інтерфейс модерації показує рядом два товари з підсвіченими збігами — оператор однією кліком підтверджує або відхиляє злиття.

Метрики якості

Відстежуйте:

Метрика Норма
Precision (доля вірних злиттів) > 98% для barcode, > 95% для sku_brand
Recall (доля знайдених дублів) > 85%
Доля товарів в ручній черзі < 5% від імпорту
Час обробки одного товару < 50 мс

Строки реалізації

  • Нормалізатор + fingerprint-схема + точний збіг: 2 дні
  • Нечіткий збіг (Jaro-Winkler): 1 день
  • Черга ручної модерації + інтерфейс: 2 дні
  • Метрики + логування рішень: 1 день

Разом: 5–6 робочих днів.