Разработка бота-парсера описаний и характеристик товаров
Парсинг текстового контента товаров — это нормализация неструктурированных данных в единую схему. Каждый сайт хранит характеристики по-своему: одни в таблицах, другие в JSON-LD, третьи в microdata. Задача — извлечь данные независимо от структуры.
Что извлекается
- Описания: краткое и полное, HTML-форматирование или plain text
- Характеристики: пары ключ-значение из таблиц и списков
- Мета-данные: бренд, страна производителя, гарантия
- Структурированные данные: JSON-LD (Schema.org Product), microdata, OpenGraph
Многослойная стратегия извлечения
// app/Services/ContentScraper/ProductContentExtractor.php
use Symfony\Component\DomCrawler\Crawler;
class ProductContentExtractor
{
/**
* Пробуем источники в порядке приоритета:
* 1. JSON-LD (самые надёжные, структурированные данные)
* 2. Microdata (итем-аттрибуты)
* 3. CSS-селекторы из конфига поставщика
* 4. Эвристический алгоритм (fallback)
*/
public function extract(string $html, string $url, array $siteConfig = []): array
{
$crawler = new Crawler($html);
$data = $this->extractFromJsonLd($crawler)
?? $this->extractFromMicrodata($crawler)
?? $this->extractWithSelectors($crawler, $siteConfig)
?? $this->extractHeuristic($crawler);
$data['specs'] = $this->extractSpecs($crawler, $siteConfig);
$data['source_url'] = $url;
return $data;
}
private function extractFromJsonLd(Crawler $crawler): ?array
{
$scripts = $crawler->filter('script[type="application/ld+json"]');
foreach ($scripts as $script) {
$json = json_decode($script->textContent, true);
if (!$json) continue;
// Обрабатываем @graph
$items = isset($json['@graph']) ? $json['@graph'] : [$json];
foreach ($items as $item) {
$type = $item['@type'] ?? '';
if (!in_array($type, ['Product', 'IndividualProduct'])) continue;
return [
'name' => $item['name'] ?? null,
'description' => strip_tags($item['description'] ?? ''),
'brand' => $item['brand']['name'] ?? $item['brand'] ?? null,
'sku' => $item['sku'] ?? $item['mpn'] ?? null,
'gtin' => $item['gtin13'] ?? $item['gtin'] ?? null,
];
}
}
return null;
}
private function extractFromMicrodata(Crawler $crawler): ?array
{
$product = $crawler->filter('[itemtype*="schema.org/Product"]');
if (!$product->count()) return null;
$get = fn(string $prop) => $product->filter("[itemprop=\"{$prop}\"]")->first()->count()
? trim($product->filter("[itemprop=\"{$prop}\"]")->first()->text(''))
: null;
return [
'name' => $get('name'),
'description' => $get('description'),
'brand' => $get('brand'),
'sku' => $get('sku'),
];
}
private function extractWithSelectors(Crawler $crawler, array $config): ?array
{
if (empty($config['selectors'])) return null;
$s = $config['selectors'];
$get = fn(?string $sel) => $sel && $crawler->filter($sel)->count()
? trim($crawler->filter($sel)->first()->text(''))
: null;
$getHtml = fn(?string $sel) => $sel && $crawler->filter($sel)->count()
? $crawler->filter($sel)->first()->html('')
: null;
return array_filter([
'name' => $get($s['name'] ?? null),
'description' => $getHtml($s['description'] ?? null),
'brand' => $get($s['brand'] ?? null),
'sku' => $get($s['sku'] ?? null),
]);
}
}
Извлечение характеристик
private function extractSpecs(Crawler $crawler, array $config): array
{
$specs = [];
// Стратегия 1: таблица с двумя колонками
$crawler->filter('table.specs tr, table.characteristics tr, .attributes-table tr')->each(
function (Crawler $row) use (&$specs) {
$cells = $row->filter('td, th');
if ($cells->count() >= 2) {
$key = trim($cells->first()->text());
$val = trim($cells->eq(1)->text());
if ($key && $val && $key !== $val) {
$specs[$key] = $val;
}
}
}
);
// Стратегия 2: dl/dt/dd
if (empty($specs)) {
$crawler->filter('dl')->each(function (Crawler $dl) use (&$specs) {
$keys = $dl->filter('dt')->each(fn(Crawler $n) => trim($n->text()));
$vals = $dl->filter('dd')->each(fn(Crawler $n) => trim($n->text()));
$specs = array_merge($specs, array_combine($keys, $vals));
});
}
// Стратегия 3: CSS-селекторы из конфига
if (empty($specs) && !empty($config['specs_selector'])) {
$crawler->filter($config['specs_selector'])->each(
function (Crawler $node) use (&$specs, $config) {
$key = trim($node->filter($config['spec_key_selector'])->text(''));
$val = trim($node->filter($config['spec_val_selector'])->text(''));
if ($key && $val) $specs[$key] = $val;
}
);
}
return $specs;
}
Нормализация данных
Характеристики от разных поставщиков называются по-разному. Нормализатор приводит к единой схеме:
// app/Services/ContentScraper/SpecsNormalizer.php
class SpecsNormalizer
{
// Словарь синонимов для нормализации ключей
private array $synonyms = [
'weight' => ['Вес', 'Масса', 'Weight', 'Вес товара', 'Масса нетто'],
'color' => ['Цвет', 'Color', 'Цвет товара', 'Расцветка'],
'brand' => ['Бренд', 'Brand', 'Торговая марка', 'Производитель'],
'country' => ['Страна', 'Country', 'Страна производства', 'Страна изготовления'],
'material'=> ['Материал', 'Material', 'Состав'],
];
public function normalize(array $rawSpecs): array
{
$normalized = [];
foreach ($rawSpecs as $rawKey => $value) {
$normalKey = $this->findNormalKey($rawKey) ?? $this->slug($rawKey);
$normalized[$normalKey] = $this->normalizeValue($normalKey, $value);
}
return $normalized;
}
private function findNormalKey(string $rawKey): ?string
{
$lower = mb_strtolower(trim($rawKey));
foreach ($this->synonyms as $normal => $variants) {
foreach ($variants as $variant) {
if (mb_strtolower($variant) === $lower) return $normal;
}
}
return null;
}
private function normalizeValue(string $key, string $value): mixed
{
return match ($key) {
'weight' => $this->normalizeWeight($value),
default => trim($value),
};
}
private function normalizeWeight(string $value): ?float
{
// "1.5 кг" → 1500 (граммы), "500 г" → 500
if (preg_match('/(\d+[\.,]?\d*)\s*(кг|kg)/ui', $value, $m)) {
return (float) str_replace(',', '.', $m[1]) * 1000;
}
if (preg_match('/(\d+[\.,]?\d*)\s*(г|g|gr)/ui', $value, $m)) {
return (float) str_replace(',', '.', $m[1]);
}
return null;
}
}
Очистка HTML-описаний
// app/Services/ContentScraper/DescriptionCleaner.php
use HTMLPurifier;
use HTMLPurifier_Config;
class DescriptionCleaner
{
private HTMLPurifier $purifier;
public function __construct()
{
$config = HTMLPurifier_Config::createDefault();
$config->set('HTML.Allowed', 'p,br,ul,ol,li,strong,b,em,i,h2,h3,h4,table,tr,td,th');
$config->set('CSS.AllowedProperties', '');
$config->set('AutoFormat.RemoveEmpty', true);
$this->purifier = new HTMLPurifier($config);
}
public function clean(string $html): string
{
// Убираем inline-стили и классы перед очисткой
$html = preg_replace('/\s+(style|class|id)="[^"]*"/i', '', $html);
// Заменяем изображения внутри описания на placeholder
$html = preg_replace('/<img[^>]*>/i', '', $html);
// Очищаем через HTMLPurifier
$clean = $this->purifier->purify($html);
// Нормализуем пробелы
return preg_replace('/\s+/', ' ', trim($clean));
}
}
Хранение и версионирование
// Миграция: версионирование описаний
Schema::create('product_content_versions', function (Blueprint $table) {
$table->id();
$table->foreignId('product_id');
$table->string('source_url');
$table->text('description')->nullable();
$table->json('specs')->nullable();
$table->string('brand')->nullable();
$table->string('sku')->nullable();
$table->integer('version');
$table->timestamp('scraped_at');
$table->timestamps();
});
Версионирование позволяет откатить описание, если поставщик изменил контент на некорректный.
Срок разработки
Парсер описаний + характеристик для одного сайта с нормализацией: 3-5 рабочих дней. Универсальный экстрактор с поддержкой 5+ источников и словарём синонимов: 8-12 дней.







