Парсинг описів товарів для наповнення 1С-Бітрікс

Наша компанія займається розробкою, підтримкою та обслуговуванням рішень на Бітрікс та Бітрікс24 будь-якої складності. Від простих односторінкових сайтів до складних інтернет-магазинів, CRM систем з інтеграцією 1С та телефонії. Досвід розробників підтверджено сертифікатами від вендора.
Пропоновані послуги
Показано 1 з 1 послугУсі 1626 послуг
Парсинг описів товарів для наповнення 1С-Бітрікс
Середня
~1-2 тижні
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851
  • image_bitrix-bitrix-24-1c_development_of_an_online_appointment_booking_widget_for_a_medical_center_594_0.webp
    Розробка на базі Бітрікс, Бітрікс24, 1С для компанії Development of an Online
    585
  • image_bitrix-bitrix-24-1c_mirsanbel_458_0.webp
    Розробка на базі 1С Підприємство для компанії МИРСАНБЕЛ
    751
  • image_crm_dolbimby_434_0.webp
    Розробка сайту на CRM Бітрікс24 для компанії DOLBIMBY
    657
  • image_crm_technotorgcomplex_453_0.webp
    Розробка на базі Бітрікс24 для компанії ТЕХНОТОРГКОМПЛЕКС
    989

Парсинг описів товарів для наповнення 1С-Бітрікс

Порожні або скопійовані описи — це нульова SEO-цінність і погана конверсія. Але писати тексти вручну для 5000 товарів нереально. Парсинг описів із сайтів виробників або дистриб'юторів — робочий спосіб швидко наповнити каталог, якщо грамотно організувати процес і не допустити дублювання контенту.

Джерела описів

Вибір джерела визначає якість та правові ризики:

Сайт виробника — максимально релевантний контент, але часто захищений від парсингу і може містити copyright. Використовувати як основу для рерайту, не як фінальний текст.

Агрегатори (Яндекс.Маркет, OZON, Wildberries) — великий обсяг описів, стандартизований формат. Ті самі правові застереження.

Офіційні дистриб'ютори — більш лояльні до використання контенту, часто самі зацікавлені в його поширенні.

Бази даних виробників (Icecat, Synccentric) — легальний варіант з API, платний, але дає чисті дані з ліцензією.

Витяг та очищення тексту

Опис на сайті-джерелі зазвичай знаходиться в <div class="description"> або аналогічному контейнері. Витягуємо через DomCrawler:

$description = $crawler->filter('.product-description')->text();

Після витягу — обов'язкове очищення:

  • strip_tags() для видалення HTML (або фільтрація дозволених тегів)
  • Видалення рекламних вставок типу «Купити в нашому магазині»
  • Нормалізація пробілів та переносів рядків
  • Видалення згадок бренду-конкурента

Якщо потрібно зберегти HTML-форматування (жирний, списки), використовуємо Symfony\Component\DomCrawler\Crawler::html() і фільтруємо через HTMLPurifier.

Запис у поля 1С-Бітрікс

1С-Бітрікс розділяє опис на два поля:

  • PREVIEW_TEXT — короткий опис (для лістингу)
  • DETAIL_TEXT — повний опис (для картки товару)

При парсингу довгого опису: перший абзац → PREVIEW_TEXT, повний текст → DETAIL_TEXT. Тип тексту задається полями PREVIEW_TEXT_TYPE та DETAIL_TEXT_TYPE (значення: text або html).

Оновлення елемента:

$el = new CIBlockElement();
$el->Update($elementId, [
    'PREVIEW_TEXT' => $shortDesc,
    'PREVIEW_TEXT_TYPE' => 'html',
    'DETAIL_TEXT' => $fullDesc,
    'DETAIL_TEXT_TYPE' => 'html',
]);

Робота з уже заповненими картками

Не перезаписувати наосліп — менеджери можуть вручну покращувати описи. Додаємо логіку:

  1. Якщо DETAIL_TEXT порожній — записуємо парсинговий текст
  2. Якщо заповнений — встановлюємо властивість DESCRIPTION_SOURCE = parsed лише при первісному заповненні
  3. При оновленні парсера — пропускаємо елементи без прапорця DESCRIPTION_SOURCE (тобто текст правили вручну)

Часові рамки робіт

Етап Термін
Аналіз джерел, вибір структури витягу 2–4 години
Розробка парсера описів 1–2 дні
Логіка очищення та нормалізації тексту 4–8 годин
Інтеграція з інфоблоком, захист ручних правок 4–6 годин
Тестування на 100–200 позиціях 4 години

Разом: 4–6 робочих днів. Якщо потрібен рерайт через AI після парсингу — додайте ще 1–2 дні на інтеграцію з GPT API.