Розробка парсера новин та RSS-лент
RSS та Atom—стандартизовані формати синдикації контенту: майже кожен новинний ресурс публікує фід. Завдання парсера—агреґувати матеріали з безлічі джерел, нормалізувати структуру, очистити контент та зберегти його в базі даних для подальшої обробки або відображення.
Як це працює
Парсер опитує список RSS/Atom-фідів за розкладом. Для кожного нового елемента:
- витяґує заголовок, опис, повний текст (якщо є), дату, теги, автора
- очищує HTML від рекламних блоків та мусора через
sanitize-htmlабоbleach - зберігає в базу з дедупликацією по GUID або URL
Якщо джерело не має RSS—підключається HTML-парсер на основі Cheerio або BeautifulSoup з ручною розміткою CSS-селекторів для конкретного сайту.
Стек
-
Node.js +
rss-parserабо Python +feedparser—обробка фідів - Cron / Celery Beat—розклад обходу
-
PostgreSQL—зберігання статей з повнотекстовим індексом
tsvector - Redis—кеш вже обпрацьованих GUID
Час реалізації базової версії під 10–20 джерел: 3–4 робочих дня.







