Розробка бота-парсера описаннь та характеристик товарів
Парсинг текстового контенту товарів — це нормалізація неструктурованих даних у єдину схему. Кожен сайт зберігає характеристики по-своєму: одні в таблицях, інші в JSON-LD, треті в microdata. Завдання — витягти дані незалежно від структури.
Що витягується
- Описи: коротке та повне, HTML-форматування або plain text
- Характеристики: пари ключ-значення з таблиць та списків
- Мета-дані: бренд, країна виробництва, гарантія
- Структуровані дані: JSON-LD (Schema.org Product), microdata, OpenGraph
Багатошарова стратегія витягування
// app/Services/ContentScraper/ProductContentExtractor.php
use Symfony\Component\DomCrawler\Crawler;
class ProductContentExtractor
{
/**
* Пробуємо джерела в порядку пріоритету:
* 1. JSON-LD (найнадійніші, структуровані дані)
* 2. Microdata (item-атрибути)
* 3. CSS-селектори з конфігу поставщика
* 4. Евристичний алгоритм (fallback)
*/
public function extract(string $html, string $url, array $siteConfig = []): array
{
$crawler = new Crawler($html);
$data = $this->extractFromJsonLd($crawler)
?? $this->extractFromMicrodata($crawler)
?? $this->extractWithSelectors($crawler, $siteConfig)
?? $this->extractHeuristic($crawler);
$data['specs'] = $this->extractSpecs($crawler, $siteConfig);
$data['source_url'] = $url;
return $data;
}
private function extractFromJsonLd(Crawler $crawler): ?array
{
$scripts = $crawler->filter('script[type="application/ld+json"]');
foreach ($scripts as $script) {
$json = json_decode($script->textContent, true);
if (!$json) continue;
// Обробляємо @graph
$items = isset($json['@graph']) ? $json['@graph'] : [$json];
foreach ($items as $item) {
$type = $item['@type'] ?? '';
if (!in_array($type, ['Product', 'IndividualProduct'])) continue;
return [
'name' => $item['name'] ?? null,
'description' => strip_tags($item['description'] ?? ''),
'brand' => $item['brand']['name'] ?? $item['brand'] ?? null,
'sku' => $item['sku'] ?? $item['mpn'] ?? null,
'gtin' => $item['gtin13'] ?? $item['gtin'] ?? null,
];
}
}
return null;
}
private function extractFromMicrodata(Crawler $crawler): ?array
{
$product = $crawler->filter('[itemtype*="schema.org/Product"]');
if (!$product->count()) return null;
$get = fn(string $prop) => $product->filter("[itemprop=\"{$prop}\"]")->first()->count()
? trim($product->filter("[itemprop=\"{$prop}\"]")->first()->text(''))
: null;
return [
'name' => $get('name'),
'description' => $get('description'),
'brand' => $get('brand'),
'sku' => $get('sku'),
];
}
}
Витягування характеристик
private function extractSpecs(Crawler $crawler, array $config): array
{
$specs = [];
// Стратегія 1: таблиця з двома колонками
$crawler->filter('table.specs tr, table.characteristics tr, .attributes-table tr')->each(
function (Crawler $row) use (&$specs) {
$cells = $row->filter('td, th');
if ($cells->count() >= 2) {
$key = trim($cells->first()->text());
$val = trim($cells->eq(1)->text());
if ($key && $val && $key !== $val) {
$specs[$key] = $val;
}
}
}
);
// Стратегія 2: dl/dt/dd
if (empty($specs)) {
$crawler->filter('dl')->each(function (Crawler $dl) use (&$specs) {
$keys = $dl->filter('dt')->each(fn(Crawler $n) => trim($n->text()));
$vals = $dl->filter('dd')->each(fn(Crawler $n) => trim($n->text()));
$specs = array_merge($specs, array_combine($keys, $vals));
});
}
return $specs;
}
Нормалізація даних
Характеристики від різних поставщиків називаються по-різному. Нормалізатор приводить до єдиної схеми:
// app/Services/ContentScraper/SpecsNormalizer.php
class SpecsNormalizer
{
private array $synonyms = [
'weight' => ['Вес', 'Масса', 'Weight', 'Вага'],
'color' => ['Цвет', 'Color', 'Колір', 'Колір товара'],
'brand' => ['Бренд', 'Brand', 'Торговая марка', 'Виробник'],
'country' => ['Страна', 'Country', 'Країна', 'Країна виробництва'],
'material'=> ['Материал', 'Material', 'Состав', 'Матеріал'],
];
public function normalize(array $rawSpecs): array
{
$normalized = [];
foreach ($rawSpecs as $rawKey => $value) {
$normalKey = $this->findNormalKey($rawKey) ?? $this->slug($rawKey);
$normalized[$normalKey] = $this->normalizeValue($normalKey, $value);
}
return $normalized;
}
private function normalizeValue(string $key, string $value): mixed
{
return match ($key) {
'weight' => $this->normalizeWeight($value),
default => trim($value),
};
}
private function normalizeWeight(string $value): ?float
{
// "1.5 кг" → 1500 (грами), "500 г" → 500
if (preg_match('/(\d+[\.,]?\d*)\s*(кг|kg)/ui', $value, $m)) {
return (float) str_replace(',', '.', $m[1]) * 1000;
}
if (preg_match('/(\d+[\.,]?\d*)\s*(г|g|gr)/ui', $value, $m)) {
return (float) str_replace(',', '.', $m[1]);
}
return null;
}
}
Строк розробки
Парсер описів + характеристик для одного сайту з нормалізацією: 3-5 робочих днів. Універсальний екстрактор з підтримкою 5+ джерел та словником синонімів: 8-12 днів.







