Розробка парсеру на Python для 1С-Бітрікс

Наша компанія займається розробкою, підтримкою та обслуговуванням рішень на Бітрікс та Бітрікс24 будь-якої складності. Від простих односторінкових сайтів до складних інтернет-магазинів, CRM систем з інтеграцією 1С та телефонії. Досвід розробників підтверджено сертифікатами від вендора.
Пропоновані послуги
Показано 1 з 1 послугУсі 1626 послуг
Розробка парсеру на Python для 1С-Бітрікс
Середня
~1-2 тижні
Часті питання

Наші компетенції:

Етапи розробки

Останні роботи

  • image_website-b2b-advance_0.png
    Розробка сайту компанії B2B ADVANCE
    1262
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Розробка веб-сайту для компанії ФІКСПЕР
    851
  • image_bitrix-bitrix-24-1c_development_of_an_online_appointment_booking_widget_for_a_medical_center_594_0.webp
    Розробка на базі Бітрікс, Бітрікс24, 1С для компанії Development of an Online
    585
  • image_bitrix-bitrix-24-1c_mirsanbel_458_0.webp
    Розробка на базі 1С Підприємство для компанії МИРСАНБЕЛ
    751
  • image_crm_dolbimby_434_0.webp
    Розробка сайту на CRM Бітрікс24 для компанії DOLBIMBY
    657
  • image_crm_technotorgcomplex_453_0.webp
    Розробка на базі Бітрікс24 для компанії ТЕХНОТОРГКОМПЛЕКС
    989

Розробка парсера на Python для 1С-Бітрікс

Python вибирають для парсингу, коли PHP упирається в обмеження: потрібен headless-браузер, асинхронна обробка тисяч URL, машинне навчання для класифікації контенту або робота з антибот-захистом. Зворотна сторона — Python не має прямого доступу до API Бітрікс, тому між парсером та CMS завжди є проміжний шар.

Чому Python, а не PHP

Конкретні причини, а не абстрактні переваги:

  • Асинхронність. asyncio + aiohttp дозволяють обробляти 100+ паралельних запитів в одному потоці. PHP curl_multi обмежений 20–50 паралельними з'єднаннями на практиці.
  • Headless-браузер. Playwright для Python — зрілий інструмент з повною підтримкою Chromium, Firefox, WebKit. PHP-обгортки для Puppeteer існують, але значно менш стабільні.
  • NLP та ML. Класифікація текстів, видобування сутностей, визначення мови — бібліотеки spaCy, transformers, langdetect не мають аналогів у PHP.
  • Бібліотеки для парсингу. BeautifulSoup, lxml, Scrapy — перевірені часом інструменти з величезною спільнотою.

Архітектура

Парсер на Python для Бітрікс працює як окремий сервіс, взаємодіючи з CMS через один з каналів передачі даних:

[Python Parser] → [Проміжне сховище] → [PHP-імпортер → Бітрікс]

Варіанти проміжного сховища:

Способ Коли використовувати Плюси Мінуси
JSON-файли До 1 000 елементів Просто, без залежностей Не масштабується
PostgreSQL/MySQL 1 000–100 000 Транзакції, індекси Потрібна спільна БД
REST API Бітрікс Будь-який обсяг Прямий запис в CMS Повільно (HTTP overhead)
Redis/RabbitMQ Потокова обробка Асинхронність, черги Ускладнення інфраструктури

Для більшості проектів оптимальний варіант з спільною базою даних: Python пише в проміжні таблиці, PHP-скрипт читає та імпортує в інфоблоки.

Реалізація на Scrapy

Scrapy — фреймворк для парсингу, який бере на себе черги URL, retry, throttling, middleware. Структура проекту:

bitrix_parser/
├── scrapy.cfg
├── bitrix_parser/
│   ├── spiders/
│   │   ├── catalog_spider.py
│   │   └── news_spider.py
│   ├── items.py
│   ├── pipelines.py
│   ├── middlewares.py
│   └── settings.py

Spider для парсингу каталогу:

import scrapy

class CatalogSpider(scrapy.Spider):
    name = 'catalog'
    start_urls = ['https://example.com/catalog/']

    def parse(self, response):
        for product in response.css('.product-card'):
            yield {
                'name': product.css('h2::text').get(),
                'price': product.css('.price::text').get(),
                'description': product.css('.desc::text').get(),
                'image': product.css('img::attr(src)').get(),
                'url': product.css('a::attr(href)').get(),
            }
        next_page = response.css('.pagination .next::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

Pipeline для запису в базу Бітрікс:

import psycopg2

class BitrixPipeline:
    def open_spider(self, spider):
        self.conn = psycopg2.connect(
            host='localhost', port=5433,
            dbname='bitrix_db', user='bitrix'
        )

    def process_item(self, item, spider):
        cursor = self.conn.cursor()
        cursor.execute("""
            INSERT INTO parser_staging (name, price, description, image_url, source_url, status)
            VALUES (%s, %s, %s, %s, %s, 'new')
            ON CONFLICT (source_url) DO UPDATE SET
                price = EXCLUDED.price,
                updated_at = NOW()
        """, (item['name'], item['price'], item['description'],
              item['image'], item['url']))
        self.conn.commit()
        return item

Асинхронний парсинг з aiohttp

Для задач, де Scrapy надмірний (прості API, RSS-фіди), асинхронний підхід на aiohttp:

import asyncio
import aiohttp

async def fetch(session, url):
    async with session.get(url, timeout=aiohttp.ClientTimeout(total=30)) as resp:
        return await resp.text()

async def parse_all(urls):
    connector = aiohttp.TCPConnector(limit=50)
    async with aiohttp.ClientSession(connector=connector) as session:
        tasks = [fetch(session, url) for url in urls]
        return await asyncio.gather(*tasks, return_exceptions=True)

50 паралельних з'єднань обробляють 10 000 URL за 5–10 хвилин — проти 5–6 годин при послідовному завантаженні.

Headless-браузер для SPA

Сайти на React, Vue, Angular відправляють порожній HTML. Playwright розв'язує це:

from playwright.async_api import async_playwright

async def parse_spa(url):
    async with async_playwright() as p:
        browser = await p.chromium.launch(headless=True)
        page = await browser.new_page()
        await page.goto(url, wait_until='networkidle')
        content = await page.content()
        await browser.close()
        return content

Ресурсоємність: кожен екземпляр Chromium споживає 100–300 МБ RAM. Для масового парсингу використовуйте пул із 3–5 екземплярів та чергу задач.

Передача даних у Бітрікс

PHP-скрипт на стороні Бітрікс забирає дані з проміжної таблиці:

$rows = $DB->Query("SELECT * FROM parser_staging WHERE status = 'new' LIMIT 100");
while ($row = $rows->Fetch()) {
    $elementId = (new CIBlockElement())->Add([
        'IBLOCK_ID' => CATALOG_IBLOCK_ID,
        'NAME'      => $row['name'],
        'XML_ID'    => md5($row['source_url']),
        // ...
    ]);
    if ($elementId) {
        $DB->Query("UPDATE parser_staging SET status='imported', bx_id={$elementId} WHERE id={$row['id']}");
    }
}

Цей скрипт запускається по cron кожні 5–15 хвилин та обробляє нові записи пакетами.

Деплой та мониторинг

Python-парсер деплоїться окремо від Бітрікс:

  • Systemd-сервіс або cron для запуску за розписанням.
  • Virtual environment (venv) — ізоляція залежностей від системного Python.
  • Логування — модуль logging з ротацією файлів або відправкою в syslog.
  • Мониторинг — скрипт перевіряє, що парсер відпрацював за останні N годин, та відправляє алерт при зависанні.

Типовий crontab:

0 1 * * * cd /opt/parsers && /opt/parsers/venv/bin/scrapy crawl catalog 2>> /var/log/parser.log
0 */4 * * * cd /opt/parsers && /opt/parsers/venv/bin/python news_parser.py 2>> /var/log/parser.log

Коли вибирати Python

Критерій PHP Python
Простий парсинг RSS/XML Найкращий вибір Надмірний
Рендеринг JavaScript Обмежено Playwright/Selenium
10 000+ URL за сесію Важко asyncio/Scrapy
Класифікація контенту Немає інструментів spaCy, transformers
Прямий імпорт у Бітрікс Нативно Через проміжний шар

Python-парсер виправданий при складних джерелах, великому обсязі або потребі в обробці тексту. Для простих задач PHP-парсер простіший у підтримці — одна кодова база, один стек.