Краулер веб-сайту для індексації внутрішнього контенту
Внутрішній краулер — інструмент для автоматичного обходу всіх сторінок сайту та побудови індексу контенту. Використовується для пошуку по сайту, аналізу структури, побудови карти контенту, виявлення дублів та технічного аудиту.
Що будує краулер
- Повний індекс URL — всі сторінки сайту з HTTP-статусами
- Метаданні — title, description, h1, canonical, hreflang
- Граф посилань — яка сторінка посилається на яку
- Контентний індекс — текстове змістом для пошуку
Реалізація
Python з asyncio та httpx для асинхронного краулінгу, BeautifulSoup для парсингу HTML.
Збереження в індекс пошуку
Результати індексуються в:
-
PostgreSQL з
tsvectorдля вбудованого пошуку по сайту - Elasticsearch / OpenSearch для більш гнучкого повнотекстового пошуку
- Meilisearch — легка self-hosted альтернатива з хорошим UX
Сроки
Краулер з збереженням у PostgreSQL-індекс: 3–5 робочих днів.







