Розробка парсера на Python для 1С-Бітрікс
Python вибирають для парсингу, коли PHP упирається в обмеження: потрібен headless-браузер, асинхронна обробка тисяч URL, машинне навчання для класифікації контенту або робота з антибот-захистом. Зворотна сторона — Python не має прямого доступу до API Бітрікс, тому між парсером та CMS завжди є проміжний шар.
Чому Python, а не PHP
Конкретні причини, а не абстрактні переваги:
-
Асинхронність.
asyncio+aiohttpдозволяють обробляти 100+ паралельних запитів в одному потоці. PHPcurl_multiобмежений 20–50 паралельними з'єднаннями на практиці. - Headless-браузер. Playwright для Python — зрілий інструмент з повною підтримкою Chromium, Firefox, WebKit. PHP-обгортки для Puppeteer існують, але значно менш стабільні.
-
NLP та ML. Класифікація текстів, видобування сутностей, визначення мови — бібліотеки
spaCy,transformers,langdetectне мають аналогів у PHP. -
Бібліотеки для парсингу.
BeautifulSoup,lxml,Scrapy— перевірені часом інструменти з величезною спільнотою.
Архітектура
Парсер на Python для Бітрікс працює як окремий сервіс, взаємодіючи з CMS через один з каналів передачі даних:
[Python Parser] → [Проміжне сховище] → [PHP-імпортер → Бітрікс]
Варіанти проміжного сховища:
| Способ | Коли використовувати | Плюси | Мінуси |
|---|---|---|---|
| JSON-файли | До 1 000 елементів | Просто, без залежностей | Не масштабується |
| PostgreSQL/MySQL | 1 000–100 000 | Транзакції, індекси | Потрібна спільна БД |
| REST API Бітрікс | Будь-який обсяг | Прямий запис в CMS | Повільно (HTTP overhead) |
| Redis/RabbitMQ | Потокова обробка | Асинхронність, черги | Ускладнення інфраструктури |
Для більшості проектів оптимальний варіант з спільною базою даних: Python пише в проміжні таблиці, PHP-скрипт читає та імпортує в інфоблоки.
Реалізація на Scrapy
Scrapy — фреймворк для парсингу, який бере на себе черги URL, retry, throttling, middleware. Структура проекту:
bitrix_parser/
├── scrapy.cfg
├── bitrix_parser/
│ ├── spiders/
│ │ ├── catalog_spider.py
│ │ └── news_spider.py
│ ├── items.py
│ ├── pipelines.py
│ ├── middlewares.py
│ └── settings.py
Spider для парсингу каталогу:
import scrapy
class CatalogSpider(scrapy.Spider):
name = 'catalog'
start_urls = ['https://example.com/catalog/']
def parse(self, response):
for product in response.css('.product-card'):
yield {
'name': product.css('h2::text').get(),
'price': product.css('.price::text').get(),
'description': product.css('.desc::text').get(),
'image': product.css('img::attr(src)').get(),
'url': product.css('a::attr(href)').get(),
}
next_page = response.css('.pagination .next::attr(href)').get()
if next_page:
yield response.follow(next_page, self.parse)
Pipeline для запису в базу Бітрікс:
import psycopg2
class BitrixPipeline:
def open_spider(self, spider):
self.conn = psycopg2.connect(
host='localhost', port=5433,
dbname='bitrix_db', user='bitrix'
)
def process_item(self, item, spider):
cursor = self.conn.cursor()
cursor.execute("""
INSERT INTO parser_staging (name, price, description, image_url, source_url, status)
VALUES (%s, %s, %s, %s, %s, 'new')
ON CONFLICT (source_url) DO UPDATE SET
price = EXCLUDED.price,
updated_at = NOW()
""", (item['name'], item['price'], item['description'],
item['image'], item['url']))
self.conn.commit()
return item
Асинхронний парсинг з aiohttp
Для задач, де Scrapy надмірний (прості API, RSS-фіди), асинхронний підхід на aiohttp:
import asyncio
import aiohttp
async def fetch(session, url):
async with session.get(url, timeout=aiohttp.ClientTimeout(total=30)) as resp:
return await resp.text()
async def parse_all(urls):
connector = aiohttp.TCPConnector(limit=50)
async with aiohttp.ClientSession(connector=connector) as session:
tasks = [fetch(session, url) for url in urls]
return await asyncio.gather(*tasks, return_exceptions=True)
50 паралельних з'єднань обробляють 10 000 URL за 5–10 хвилин — проти 5–6 годин при послідовному завантаженні.
Headless-браузер для SPA
Сайти на React, Vue, Angular відправляють порожній HTML. Playwright розв'язує це:
from playwright.async_api import async_playwright
async def parse_spa(url):
async with async_playwright() as p:
browser = await p.chromium.launch(headless=True)
page = await browser.new_page()
await page.goto(url, wait_until='networkidle')
content = await page.content()
await browser.close()
return content
Ресурсоємність: кожен екземпляр Chromium споживає 100–300 МБ RAM. Для масового парсингу використовуйте пул із 3–5 екземплярів та чергу задач.
Передача даних у Бітрікс
PHP-скрипт на стороні Бітрікс забирає дані з проміжної таблиці:
$rows = $DB->Query("SELECT * FROM parser_staging WHERE status = 'new' LIMIT 100");
while ($row = $rows->Fetch()) {
$elementId = (new CIBlockElement())->Add([
'IBLOCK_ID' => CATALOG_IBLOCK_ID,
'NAME' => $row['name'],
'XML_ID' => md5($row['source_url']),
// ...
]);
if ($elementId) {
$DB->Query("UPDATE parser_staging SET status='imported', bx_id={$elementId} WHERE id={$row['id']}");
}
}
Цей скрипт запускається по cron кожні 5–15 хвилин та обробляє нові записи пакетами.
Деплой та мониторинг
Python-парсер деплоїться окремо від Бітрікс:
- Systemd-сервіс або cron для запуску за розписанням.
-
Virtual environment (
venv) — ізоляція залежностей від системного Python. -
Логування — модуль
loggingз ротацією файлів або відправкою в syslog. - Мониторинг — скрипт перевіряє, що парсер відпрацював за останні N годин, та відправляє алерт при зависанні.
Типовий crontab:
0 1 * * * cd /opt/parsers && /opt/parsers/venv/bin/scrapy crawl catalog 2>> /var/log/parser.log
0 */4 * * * cd /opt/parsers && /opt/parsers/venv/bin/python news_parser.py 2>> /var/log/parser.log
Коли вибирати Python
| Критерій | PHP | Python |
|---|---|---|
| Простий парсинг RSS/XML | Найкращий вибір | Надмірний |
| Рендеринг JavaScript | Обмежено | Playwright/Selenium |
| 10 000+ URL за сесію | Важко | asyncio/Scrapy |
| Класифікація контенту | Немає інструментів | spaCy, transformers |
| Прямий імпорт у Бітрікс | Нативно | Через проміжний шар |
Python-парсер виправданий при складних джерелах, великому обсязі або потребі в обробці тексту. Для простих задач PHP-парсер простіший у підтримці — одна кодова база, один стек.







