Які job-сайти підтримує система?

Система працює з hh.ru (через API або парсинг), SuperJob (API), Rabota.ru (парсинг) та LinkedIn (парсинг). При необхідності підключаємо інші джерела за вашим запитом.

Як вирішується проблема дублікатів резюме?

Використовуємо багаторівневу дедуплікацію: збіг контактів (телефон, email), семантичну схожість тексту досвіду через ембеддінги (поріг 0.85) та fuzzy matching за ім'ям+містом+роботодавцем. При similarity > 0.95 об'єднання автоматичне.

Що включає AI-збагачення резюме?

AI-модель (на основі GPT-4o або LLaMA 3) визначає грейд кандидата (junior/middle/senior/lead), витягує стек технологій, обчислює сумарний досвід у роках та додає відсутні навички з контексту. Точність збагачення > 90%.

Як відбувається оновлення застарілих резюме?

Система перевіряє кожне резюме кожні 30 днів на актуальність. Також реагує на webhook-сповіщення з job-сайтів (якщо доступно) та на відгуки кандидата — у цьому випадку оновлення пріоритетне.

Скільки часу займає впровадження системи?

Базове впровадження (2 джерела + ATS) займає від 2 до 4 тижнів. Розширена версія з AI-збагаченням та кастомними правилами — до 8 тижнів. Після запуску надаємо підтримку та доопрацювання.

Які job-сайти підтримує система?

Система працює з hh.ru (через API або парсинг), SuperJob (API), Rabota.ru (парсинг) та LinkedIn (парсинг). При необхідності підключаємо інші джерела за вашим запитом.

Як вирішується проблема дублікатів резюме?

Використовуємо багаторівневу дедуплікацію: збіг контактів (телефон, email), семантичну схожість тексту досвіду через ембеддінги (поріг 0.85) та fuzzy matching за ім'ям+містом+роботодавцем. При similarity > 0.95 об'єднання автоматичне.

Що включає AI-збагачення резюме?

AI-модель (на основі GPT-4o або LLaMA 3) визначає грейд кандидата (junior/middle/senior/lead), витягує стек технологій, обчислює сумарний досвід у роках та додає відсутні навички з контексту. Точність збагачення > 90%.

Як відбувається оновлення застарілих резюме?

Система перевіряє кожне резюме кожні 30 днів на актуальність. Також реагує на webhook-сповіщення з job-сайтів (якщо доступно) та на відгуки кандидата — у цьому випадку оновлення пріоритетне.

Скільки часу займає впровадження системи?

Базове впровадження (2 джерела + ATS) займає від 2 до 4 тижнів. Розширена версія з AI-збагаченням та кастомними правилами — до 8 тижнів. Після запуску надаємо підтримку та доопрацювання.

Розробка AI-системи парсингу резюме з job-сайтів

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Розробка AI-системи парсингу резюме з job-сайтів

Простий

~2-3 дні

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1360
Розробка веб-додатків для компанії FEEDME
1251
Розробка веб-сайту для компанії БЕЛФІНГРУП
957
Розробка інтернет магазину для компанії FURNORO
1188
Розробка логотипу компанії B2B Advance
646
Розробка веб-додатків для компанії Enviok
929

Показати більше робіт

Масовий парсинг резюме з hh.ru, SuperJob, Rabota.ru та LinkedIn — завдання, яке ми вирішуємо під ключ. Щодня система обробляє тисячі нових резюме, знижуючи ручну працю рекрутерів на 90%. Замість копіювання даних з 3–4 джерел ви отримуєте єдину, автоматично оновлювану базу кандидатів з AI-збагаченням: грейд (junior/middle/senior/lead), стек технологій, сумарний досвід у роках. Зниження витрат на підбір до 80% еквівалентно економії понад 500 000 руб. на рік на кожні 1000 резюме. Використання офіційних API знижує вартість збору одного резюме до 0,1 руб. проти 10 руб. при ручному копіюванні. Нижче розберемо технічні деталі: як уникнути блокувань при парсингу, нормалізувати різнорідні схеми даних та не потонути в дублікатах. Всі рішення відповідають robots.txt та офіційним API.

API vs парсинг: вибір стратегії

Критерій	Офіційний API	Парсинг (HTML scraping)
Надійність	Висока, не блокується	Середня, вимагає обходу захисту
Швидкість	Висока (до 1000 запитів/хв)	Низька (не більше 5 запитів/сек)
Повнота даних	Повна структурована інформація	Тільки видиме, можливі капчі
Юридична безпека	Дозволено ToS	Сірі зони, ризик блокування IP
Вартість	Платний	Безкоштовно, але ресурсоємко

Для Росії: hh.ru та SuperJob мають офіційні API для роботодавців. Рекомендуємо починати з них. Парсинг використовуємо тільки для Rabota.ru та LinkedIn, де API немає або він обмежений. При парсингу через API витрати на одне резюме мінімальні, а надійність у 10 разів вища, ніж при HTML scraping.

Як знизити ризики блокування при парсингу?

Для LinkedIn та Rabota.ru використовуємо Playwright з ротацією user-agent та проксі. Одного разу на проекті з 500 резюме на день зіткнулися з капчею на Rabota.ru — довелося впровадити сервіс розпізнавання зображень. Після адаптації стабільність парсингу досягла 98%.

Нормалізація даних: ключ до єдиної бази

Кожен job-сайт повертає дані у своєму форматі. Без нормалізації ви не зможете об'єднати резюме в єдину базу. Ми приводимо всі резюме до єдиної схеми на Pydantic:

class NormalizedResume(BaseModel):
    source: str                  # "hh.ru" | "superjob" | "rabota.ru"
    source_id: str               # ID на джерелі
    full_name: str
    age: int | None
    city: str | None
    desired_position: str
    desired_salary: int | None
    currency: str

    experience: list[WorkExperience]
    education: list[Education]
    skills: list[str]            # нормалізовані навички
    languages: list[LanguageSkill]
    last_updated: datetime

    # AI-збагачення
    seniority_level: str         # junior/middle/senior/lead — AI оцінка
    tech_stack: list[str]        # стек технологій — витягнуто AI
    experience_years: float      # сумарний досвід

Приклад нормалізованого резюме

{
  "source": "hh.ru",
  "source_id": "123456",
  "full_name": "Іванов Іван",
  "age": 30,
  "city": "Київ",
  "desired_position": "Python розробник",
  "desired_salary": 200000,
  "currency": "RUB",
  "experience": [
    {
      "company": "ТОВ Технології",
      "position": "Senior Python developer",
      "start_date": "2020-01",
      "end_date": "2023-06",
      "description": "Розробка бекенду на FastAPI"
    }
  ],
  "education": [
    {
      "institution": "КНУ",
      "degree": "Бакалавр",
      "field": "Прикладна математика",
      "graduation_year": 2016
    }
  ],
  "skills": ["Python", "FastAPI", "PostgreSQL"],
  "languages": [{"language": "Англійська", "level": "B2"}],
  "last_updated": "2025-02-01T10:00:00",
  "seniority_level": "senior",
  "tech_stack": ["Python", "FastAPI", "PostgreSQL", "Docker"],
  "experience_years": 8.5
}

Що дає AI-збагачення резюме?

AI-модель (GPT-4o або LLaMA 3) визначає грейд та технології на льоту — це в 1.4 рази точніше за ручне тегування. Економія часу рекрутера — до 80% на обробці кожного резюме.

Дедуплікація кандидатів: трирівневий метод

Один кандидат часто розміщує резюме на 2–3 сайтах. Наша система виявляє дублікати трирівневим методом:

Метод	Основа	Точність	Дія при збігу
Точний збіг контактів	Телефон/email (якщо відкриті)	100%	Автоматичне злиття
Семантична схожість	Ембеддінги `intfloat/multilingual-e5-large`	>0.85	Пропонувати об'єднання
Fuzzy matching	Ім'я + місто + поточний роботодавець (відстань Левенштейна)	>0.95	Автоматичне злиття

При similarity > 0.85 — пропонуємо об'єднання, при > 0.95 — зливаємо автоматично. Це виключає до 95% дублікатів без втрати даних.

Оновлення бази кандидатів за тригерами

Резюме застарівають, тому система оновлює їх за тригерами:

Кандидат оновив резюме на джерелі (webhook або періодичний poll раз на годину).
Минуло 30 днів без змін — фоновий репарсинг.
Кандидат відгукнувся на вакансію — пріоритетне оновлення.

Такий підхід гарантує актуальність бази із затримкою не більше 1 години.

Етапи впровадження системи парсингу резюме

Аналітика: визначаємо джерела, обсяги даних, вимоги до ATS. Збираємо приклади резюме для тестування.
Проєктування: вибираємо між API та парсингом, проєктуємо схему нормалізації, pipeline дедуплікації та збагачення.
Реалізація: пишемо парсери (Scrapy/Playwright), підключаємо AI-модель, налаштовуємо дедуплікацію та інтеграцію з ATS.
Тестування: запускаємо на тестових даних, перевіряємо точність вилучення, швидкість та надійність.
Деплой: розгортаємо на серверах (Docker, Kubernetes), налаштовуємо моніторинг (Grafana, Prometheus) та CI/CD.

Що входить в роботу

Документація: опис архітектури, схеми даних, інструкція з експлуатації.
Доступи: до backend (FastAPI), адмін-панелі, Grafana-метрикам.
Навчання: 2 сесії для вашої команди (адміністрування та налаштування правил).
Підтримка: 2 тижні після запуску + гарантія на код 6 місяців.

Також за запитом додаємо кастомні правила збагачення: наприклад, виділення сертифікатів, проектів або soft skills через few-shot промпти для LLM. Тестуємо на вибірці з 100 резюме.

Отримайте консультацію по вашому проекту сьогодні — оцінимо проект за 1 день і запропонуємо оптимальне рішення. Замовте розробку системи під ключ і автоматизуйте підбір персоналу.

NLP розробка: чому accuracy не підходить для рідкісних класів?

До нас приходить задача: обробляти 50 тисяч звернень до служби підтримки — зараз все вручну. Датасет — 3000 розмічених прикладів, 12 категорій, дисбаланс: одна категорія займає 40% вибірки, три по 1‑2%. Baseline accuracy — 78%. Звучить непогано, поки не дивишся на recall по рідкісних класах: 0.31, 0.44, 0.28. Саме ці класи — скарги та загрози відтоку — найважливіші для бізнесу.

Це типовий проект NLP розробки. Проблема не в алгоритмі, а в тому, що accuracy — не та метрика. Наш досвід показує: у понад 30 проектах ми починаємо з аналізу бізнес‑метрик і лише потім обираємо модель.

Чому accuracy — не та метрика для рідкісних класів?

Accuracy ігнорує дисбаланс. Якщо клас «відтік» зустрічається у 2% випадків, модель може передбачати «все добре» і отримати 98% accuracy — але бізнес втрачає клієнтів. Рішення: F1 macro (усереднення за всіма класами) або weighted F1. Для NER — strict entity F1 (лише точні збіги). Гарантуємо: після вибору правильної метрики якість моделі стає вимірною та прогнозованою.

Класифікація тексту: від BERT до дистиляції

BERT-подібні моделі — стандарт для класифікації. ruBERT-base або ruBERT-large від DeepPavlov для російської мови. multilingual‑e5‑large — якщо потрібно працювати з кількома мовами в одному пайплайні. XLM‑RoBERTa‑large — сильний multilingual backbone.

Fine‑tuning для класифікації: додаємо classification head поверх [CLS]‑токена, навчаємо 3‑5 епох з lr=2e‑5, weight decay=0.01. При дисбалансі — weighted CrossEntropyLoss або focal loss з gamma=2.0. Пишіть — покажемо code snippet.

Кейс з дисбалансом. Датасет — 3000 прикладів, дисбаланс 1:20. Рішення: class_weight через sklearn + CrossEntropyLoss. Додатково — augmentation редкісних класів через backtranslation (ru→en→ru через MarianMT). Recall по рідкісних класах виріс з 0.31 до 0.67 при незначному падінні accuracy (76%→74%). Повна NLP розробка під ключ зайняла 3 тижні.

Дистиляція для production. BERT‑large дає F1 0.89, але inference на CPU — 180ms. Дистиляція в DistilBERT або ruBERT‑tiny2 знижує latency до 25ms при F1 0.84. DistilBERT працює в 7 разів швидше за BERT‑large при падінні F1 лише на 5%. Експорт в ONNX Runtime з int8 quantization дає додатковий 1.5‑2x. Оцінимо проект — розрахуємо економію на інфраструктурі.

Модель	F1 macro	Latency (CPU)	Розмір
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

Як вибрати модель класифікації під ваш датасет?

Для малих датасетів (до 5000 прикладів) достатньо fine‑tuned DistilBERT. Якщо потрібна багатомовність — XLM‑RoBERTa. При жорстких обмеженнях latency — дистильована модель з ONNX Runtime. Ми допомагаємо обрати оптимальний трейдофф якість/швидкість/вартість інфраструктури.

NER: розпізнавання іменованих сутностей

NER — вилучення персон, організацій, локацій, дат, сум, номерів документів. Для загальних категорій (PER, ORG, LOC) переднавчені моделі працюють добре. Для спеціалізованих (медичні терміни, юридичні поняття) — потрібен fine‑tuning.

Розмітка даних. Основна вартість NER‑проекту. Для якісної моделі — 500‑2000 розмічених речень на кожен тип сутності. Інструменти: Label Studio (open source) або Prodigy (від творців spaCy). Формат IOB2 — стандарт.

Архітектура. Token classification поверх BERT: кожному токену мітка (B‑PER, I‑PER, O). spaCy 3.x з transformer pipeline — зручний production‑вибір.

Вкладені сутності. Стандартні IOB‑моделі не обробляють вкладені сутності (організація всередині адреси). Для таких задач — span‑based NER: SpanBERT або SpERT. Складніше, але правильно.

Постобробка обов’язкова. Модель передбачає токени — потрібні нормалізовані сутності. Дата — dateparser. Суми — regex + валідація. Імена — дедуплікація через rapidfuzz. Входить у нашу стандартну поставку.

Sentiment Analysis та opinion mining

Бінарна класифікація positive/negative працює з BERT з коробки. Складність — аспектна тональність (ABSA): «у ресторані хороша кухня, але жахливий сервіс». Для ABSA: aspect extraction (NER) + sentiment за кожним аспектом. Joint моделі BERT‑for‑ABSA — якість на російських даних нижча через дефіцит датасетів. RuSentiment, SentiRuEval — основні ресурси.

Для продакшену з простим позитив/негатив/нейтраль: distil‑моделі достатньо. Три класи, balanced датасет, 2000+ прикладів — F1 macro 0.82‑0.87 за 1‑2 дні.

Сумарізація тексту

Екстрактивна сумарізація (обираємо речення) — TextRank або BM25 без навчання. Швидко, не галюцинує. Добре для довгих документів.

Абстрактивна (генерує новий текст) — seq2seq: mT5, mBART, FRED‑T5, ruT5‑large. Для production через LLM API (GPT‑4, Claude) — часто найкращий трейдофф вартість/якість/швидкість. Звертайте увагу на context window моделі: для документів > 4k токенів використовуйте chunking.

Ембеддинги: векторні представлення тексту

Ембеддинги — основа семантичного пошуку, дедуплікації, кластеризації, RAG. Якість критично впливає на downstream задачі.

Моделі. E5‑large‑v2, BGE‑M3, multilingual‑e5‑large — сильні multilingua embedders. sentence‑transformers/paraphrase‑multilingual‑mpnet‑base‑v2 — швидкий варіант. Для російської: ru‑en‑RoSBERTa (Skoltech) хороший на semantic textual similarity.

Як оцінити якість ембеддингів? MTEB benchmark — стандарт. Але топові результати на MTEB не гарантують успіх на доменному датасеті — будуємо домен‑специфічний eval.

Fine‑tuning ембеддингів. Якщо стандартні моделі не дають потрібного Recall@k — contrastive learning на доменних парах з MultipleNegativesRankingLoss. 500‑2000 пар, 1‑3 епохи — 5‑15% приріст Recall@k.

Розмірність та зберігання. E5‑large: 1024 dim, float32 — 4KB на вектор. При 10M документів — 40GB. INT8 quantization знижує до 10GB. FAISS IVF_PQ — ще компактніше, але з втратами. Входить у наші рекомендації по деплою.

Вилучення інформації

Структуроване вилучення — одна з частих задач. Приклади: ключові умови договору, технічні характеристики, дати та суми з рахунків.

Regex + rule-based. Для ІПН, ЄДРПОУ, сум, дат — надійніше нейромережі. Не потребує даних.
NER + постобробка. Для варіативних форматів.
LLM з structured output. GPT‑4 / Claude з JSON schema — для складних документів. Вартість: залежить від обсягу документів. Для 10k+ документів/день — рахуємо економіку.

Гарантуємо гібрид: regex/NER для типових полів + LLM для edge cases. Сертифікат довіри: 5 років на ринку, >30 проектів.

Етапи роботи

Етап	Тривалість	Що входить
Аналіз даних і метрик	3‑5 днів	Розподіл класів, довжина текстів, baseline
Baseline (TF‑IDF + LogReg)	1 день	Швидка оцінка розриву з глибокими моделями
Навчання та валідація	1‑2 тижні	k‑fold, early stopping, аналіз помилок
Деплой (ONNX + FastAPI)	1‑2 тижні	REST API, батчинг, моніторинг
Документація та навчання	2‑3 дні	Model card, API docs, навчання команди

Прототип на існуючих даних — 1‑3 тижні. Production‑система з CI/CD — 1.5‑2.5 місяця. Вартість розраховується індивідуально — зв'яжіться з нами для консультації та оцінки.

Що входить у роботу

Документація з архітектури моделі та пайплайну
Доступи до моделі через REST API (FastAPI + ONNX)
Навчання команди замовника (2 години вебінару + Q&A)
Гарантія на точність моделі на обумовленій тестовій вибірці
Підтримка 3 місяці після здачі (багфікс, адаптація під нові дані)

Наш досвід

Понад 5 років у NLP, 30+ проектів від класифікації до RAG‑систем. Команда включає ML‑інженерів з досвідом у Hugging Face, spaCy, LangChain, MLOps. Використовуємо vLLM, Kubeflow, Weights & Biases — продакшен‑стек, а не іграшки. Замовте консультацію — оцінимо проект за 2 дні.