Реалізація дедублікації товарів при імпорті з кількох джерел
Дедублікація — найскладніша частина мультипоставницького імпорту. Постачальники описують один і той же товар по-різному: різні артикули, різні назви, різні штрих-коди або взагалі без них. Наївний підхід «порівняти за назвою» дає 30–40% хибних збігів і пропускає стільки ж справжніх дублів.
Стратегії ідентифікації дублів
Дедублікацію будують послідовно: спочатку жорсткі збіги, потім нечіткі.
1. Точний збіг за GTIN/EAN/UPC
2. Точний збіг за артикулом виробника (MPN) + бренд
3. Нормалізована назва + бренд
4. Нечіткий текстовий збіг (fuzzy)
5. Ручна привязка через інтерфейс
Кожен наступний рівень менш надійний, вимагає перевірки або впевненого порога.
Нормалізація перед порівнянням
Дані потрібно привести до единого вигляду:
class ProductNormalizer
{
public function normalizeName(string $name): string
{
$name = mb_strtolower($name);
$name = preg_replace('/\s+/', ' ', $name);
$name = trim($name);
// Прибрати одиниці виміру в дужках: "Кабель (1м)" → "Кабель 1м"
$name = preg_replace('/\((\d+\s*[а-яa-z]+)\)/u', '$1', $name);
// Нормалізація числових значень: "64 GB" → "64gb"
$name = preg_replace('/(\d+)\s*(gb|tb|mb|мб|гб|тб)/ui', '$1$2', $name);
$name = preg_replace('/(\d+)\s*(мгц|ghz|mhz)/ui', '$1$2', $name);
// Стоп-слова для техніки
$stopWords = ['новий', 'оригінал', 'original', 'retail', 'box', 'версія'];
foreach ($stopWords as $word) {
$name = preg_replace('/\b' . preg_quote($word, '/') . '\b/ui', '', $name);
}
return trim(preg_replace('/\s+/', ' ', $name));
}
public function normalizeBarcode(string $barcode): string
{
// Привести до EAN-13: прибрати ведучі нулі, доповнити до 13 символів
$barcode = preg_replace('/\D/', '', $barcode);
$barcode = ltrim($barcode, '0');
return str_pad($barcode, 13, '0', STR_PAD_LEFT);
}
public function normalizeBrand(string $brand): string
{
$map = [
'самсунг' => 'samsung',
'сяоми' => 'xiaomi',
'еппл' => 'apple',
'lg' => 'lg',
'l.g.' => 'lg',
];
$key = mb_strtolower(trim($brand));
return $map[$key] ?? $key;
}
}
Fingerprint-підхід
Замість порівняння на льету — вичисляти «відбиток» при імпорті та порівнювати відбитки:
class ProductFingerprint
{
public function __construct(private ProductNormalizer $normalizer) {}
public function compute(SupplierProductDTO $dto): array
{
$prints = [];
// Fingerprint 1: штрих-код (найнадійніший)
if ($dto->barcode) {
$prints['barcode'] = 'bc:' . $this->normalizer->normalizeBarcode($dto->barcode);
}
// Fingerprint 2: артикул + бренд
if ($dto->sku && $dto->brand) {
$prints['sku_brand'] = 'sb:' . $this->normalizer->normalizeBrand($dto->brand)
. ':' . mb_strtolower(trim($dto->sku));
}
// Fingerprint 3: нормалізована назва + бренд
if ($dto->brand) {
$prints['name_brand'] = 'nb:' . $this->normalizer->normalizeBrand($dto->brand)
. ':' . $this->normalizer->normalizeName($dto->name);
}
return $prints;
}
}
Таблиця відбитків:
CREATE TABLE product_fingerprints (
id BIGSERIAL PRIMARY KEY,
product_id BIGINT REFERENCES products(id) ON DELETE CASCADE,
type VARCHAR(20) NOT NULL, -- 'barcode', 'sku_brand', 'name_brand'
value VARCHAR(500) NOT NULL,
UNIQUE(type, value)
);
CREATE INDEX idx_fingerprints_value ON product_fingerprints(value);
Алгоритм дедублікації при імпорті
class DeduplicationService
{
public function findOrCreateProduct(SupplierProductDTO $dto): Product
{
$prints = $this->fingerprint->compute($dto);
// Пошук за відбитками в порядку надійності
foreach (['barcode', 'sku_brand', 'name_brand'] as $type) {
if (!isset($prints[$type])) continue;
$existing = ProductFingerprint::where('type', $type)
->where('value', $prints[$type])
->first();
if ($existing) {
// Додати нові відбитки до знайденого товару
$this->mergeFingerprints($existing->product_id, $prints, $type);
return $existing->product;
}
}
// Нечіткий збіг для ненайденого
if ($candidate = $this->fuzzyMatch($dto)) {
// Якщо схожість > порог — вважаємо дублем, але логуємо для перевірки
$this->logFuzzyMatch($dto, $candidate);
if ($candidate['score'] >= 0.92) {
return $candidate['product'];
}
}
// Створити новий товар
return $this->createNewProduct($dto, $prints);
}
}
Нечіткий збіг
Для нечіткого порівняння використовується алгоритм Jaro-Winkler або TF-IDF + cosine similarity. Для PHP-проектів зручна бібліотека yiisoft/strings або власна реалізація:
class FuzzyMatcher
{
public function jaroWinkler(string $a, string $b): float
{
// Jaro similarity
$maxDist = (int) floor(max(mb_strlen($a), mb_strlen($b)) / 2) - 1;
$matches = 0;
$aMatched = [];
$bMatched = [];
for ($i = 0; $i < mb_strlen($a); $i++) {
$start = max(0, $i - $maxDist);
$end = min($i + $maxDist + 1, mb_strlen($b));
for ($j = $start; $j < $end; $j++) {
if (!isset($bMatched[$j]) && mb_substr($a, $i, 1) === mb_substr($b, $j, 1)) {
$aMatched[$i] = true;
$bMatched[$j] = true;
$matches++;
break;
}
}
}
if ($matches === 0) return 0.0;
// Winkler prefix bonus
$prefix = 0;
for ($i = 0; $i < min(4, mb_strlen($a), mb_strlen($b)); $i++) {
if (mb_substr($a, $i, 1) === mb_substr($b, $i, 1)) $prefix++;
else break;
}
$jaro = ($matches / mb_strlen($a) + $matches / mb_strlen($b) + 1.0) / 3;
return $jaro + $prefix * 0.1 * (1 - $jaro);
}
}
Черга ручної перевірки
Товари, що потрапили в «сіру зону» (score 0.75–0.92), йдуть в чергу ручної модерації:
CREATE TABLE dedup_review_queue (
id BIGSERIAL PRIMARY KEY,
new_dto JSONB NOT NULL,
candidate_id BIGINT REFERENCES products(id),
score FLOAT,
match_type VARCHAR(20), -- 'fuzzy_name', 'fuzzy_sku'
status VARCHAR(20) DEFAULT 'pending', -- 'pending','merged','rejected'
reviewed_by INT REFERENCES users(id),
created_at TIMESTAMP DEFAULT NOW()
);
Інтерфейс модерації показує рядом два товари з підсвіченими збігами — оператор однією кліком підтверджує або відхиляє злиття.
Метрики якості
Відстежуйте:
| Метрика | Норма |
|---|---|
| Precision (доля вірних злиттів) | > 98% для barcode, > 95% для sku_brand |
| Recall (доля знайдених дублів) | > 85% |
| Доля товарів в ручній черзі | < 5% від імпорту |
| Час обробки одного товару | < 50 мс |
Строки реалізації
- Нормалізатор + fingerprint-схема + точний збіг: 2 дні
- Нечіткий збіг (Jaro-Winkler): 1 день
- Черга ручної модерації + інтерфейс: 2 дні
- Метрики + логування рішень: 1 день
Разом: 5–6 робочих днів.







