Реализация парсинга через Scrapy (Python)

Наша компания занимается разработкой, поддержкой и обслуживанием сайтов любой сложности. От простых одностраничных сайтов до масштабных кластерных систем построенных на микро сервисах. Опыт разработчиков подтвержден сертификатами от вендоров.

Разработка и обслуживание любых видов сайтов:

Информационные сайты или веб-приложения
Сайты визитки, landing page, корпоративные сайты, онлайн каталоги, квиз, промо-сайты, блоги, новостные ресурсы, информационные порталы, форумы, агрегаторы
Сайты или веб-приложения электронной коммерции
Интернет-магазины, B2B-порталы, маркетплейсы, онлайн-обменники, кэшбэк-сайты, биржи, дропшиппинг-платформы, парсеры товаров
Веб-приложения для управления бизнес-процессами
CRM-системы, ERP-системы, корпоративные порталы, системы управления производством, парсеры информации
Сайты или веб-приложения электронных услуг
Доски объявлений, онлайн-школы, онлайн-кинотеатры, конструкторы сайтов, порталы предоставления электронных услуг, видеохостинги, тематические порталы

Это лишь некоторые из технических типов сайтов, с которыми мы работаем, и каждый из них может иметь свои специфические особенности и функциональность, а также быть адаптированным под конкретные потребности и цели клиента

Предлагаемые услуги
Показано 1 из 1 услугВсе 2065 услуг
Реализация парсинга через Scrapy (Python)
Средняя
~3-5 рабочих дней
Часто задаваемые вопросы

Наши компетенции:

Этапы разработки

Последние работы

  • image_website-b2b-advance_0.png
    Разработка сайта компании B2B ADVANCE
    1262
  • image_web-applications_feedme_466_0.webp
    Разработка веб-приложения для компании FEEDME
    1171
  • image_websites_belfingroup_462_0.webp
    Разработка веб-сайта для компании БЕЛФИНГРУПП
    874
  • image_ecommerce_furnoro_435_0.webp
    Разработка интернет магазина для компании FURNORO
    1094
  • image_crm_enviok_479_0.webp
    Разработка веб-приложения для компании Enviok
    831
  • image_bitrix-bitrix-24-1c_fixper_448_0.png
    Разработка веб-сайта для компании ФИКСПЕР
    851

Реализация парсинга через Scrapy (Python)

Scrapy — промышленный фреймворк для веб-скрапинга на Python. Не просто библиотека, а полноценная архитектура: встроенная очередь запросов, middleware-система, pipeline для обработки данных, встроенная поддержка robots.txt, авторотация user-agent, кэширование ответов. Если нужно собирать данные с сотен страниц в параллельном режиме — Scrapy правильный выбор.

Архитектура Scrapy

Spider (логика обхода)
    ↓
Scrapy Engine
    ↓
Scheduler (очередь URL)
    ↓
Downloader (HTTP-запросы)
    ↓ (через Downloader Middlewares)
Response → Spider
    ↓
Items → Item Pipeline
    ↓
Storage (DB, CSV, JSON, S3)

Каждый компонент заменяем: можно встроить свою очередь (Redis через scrapy-redis), свой downloader (Playwright через scrapy-playwright) или свой pipeline.

Базовый spider

import scrapy

class CatalogSpider(scrapy.Spider):
    name = 'catalog'
    start_urls = ['https://example.com/catalog?page=1']

    def parse(self, response):
        for item in response.css('.product-card'):
            yield {
                'title': item.css('.title::text').get('').strip(),
                'price': item.css('.price::attr(data-value)').get(),
                'url': response.urljoin(item.css('a::attr(href)').get()),
            }

        next_page = response.css('a.next-page::attr(href)').get()
        if next_page:
            yield response.follow(next_page, self.parse)

Масштабирование через scrapy-redis

Для распределённого сбора на нескольких серверах:

# settings.py
SCHEDULER = 'scrapy_redis.scheduler.Scheduler'
DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'
REDIS_URL = 'redis://redis:6379'
SCHEDULER_PERSIST = True  # очередь не сбрасывается при перезапуске

С scrapy-redis несколько воркеров читают из общей Redis-очереди — горизонтальное масштабирование без изменений кода spider.

Middleware для обхода защиты

class RotateUserAgentMiddleware:
    agents = [
        'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 ...',
        'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) ...',
    ]

    def process_request(self, request, spider):
        request.headers['User-Agent'] = random.choice(self.agents)

Дополнительно: scrapy-rotating-proxies для автоматической ротации прокси с отслеживанием статуса каждого адреса.

Pipeline для PostgreSQL

class PostgreSQLPipeline:
    def open_spider(self, spider):
        self.conn = psycopg2.connect(DATABASE_URL)
        self.cur = self.conn.cursor()

    def process_item(self, item, spider):
        self.cur.execute(
            'INSERT INTO products (title, price, url) VALUES (%s, %s, %s) '
            'ON CONFLICT (url) DO UPDATE SET price = EXCLUDED.price',
            (item['title'], item['price'], item['url'])
        )
        self.conn.commit()
        return item

ON CONFLICT DO UPDATE решает дедупликацию на уровне БД без дополнительных проверок в коде.

Мониторинг и статистика

Scrapy пишет подробную статистику каждого запуска: количество запросов, обработанных элементов, ошибок, среднее время ответа. Через scrapy-prometheus эти метрики экспортируются в Prometheus и визуализируются в Grafana.

Сроки

Spider для одного сайта с pipeline и базовыми middleware: 3–5 дней. Распределённая система с Redis, мониторингом и несколькими source-адаптерами: 10–15 дней.