Какие источники поддерживаются?

ВКонтакте, Telegram, Одноклассники, форумы (Otzovik, IRecommend), отзовики (Яндекс.Маркет, Google Reviews), СМИ через NewsAPI и RSS. Для каждого источника настраивается rate limit и фильтрация.

Как обеспечивается точность анализа тональности?

Используем аспектный анализ на базе LLM (GPT-4, LLaMA 3). Модель fine-tune на корпусе отзывов заказчика. Дополнительно настраиваем пороговые значения confidence для снижения false positives.

Как быстро система реагирует на негативные упоминания?

Высокоприоритетные упоминания (P1) отправляются в Telegram/Slack в течение 5 секунд. Для этого используется event-driven архитектура с очередями и instant alerting.

Можно ли интегрировать систему с CRM?

Да. Система экспортирует упоминания и инсайты через REST API или Webhook. Встроенная интеграция с Bitrix24, AmoCRM и Salesforce — адаптация под любую CRM.

Сколько времени занимает разработка?

Сроки — от 4 до 12 недель. Зависит от количества источников, сложности аспектной модели и интеграций. Первый дашборд с базовыми метриками — через 2 недели.

Какие источники поддерживаются?

ВКонтакте, Telegram, Одноклассники, форумы (Otzovik, IRecommend), отзовики (Яндекс.Маркет, Google Reviews), СМИ через NewsAPI и RSS. Для каждого источника настраивается rate limit и фильтрация.

Как обеспечивается точность анализа тональности?

Используем аспектный анализ на базе LLM (GPT-4, LLaMA 3). Модель fine-tune на корпусе отзывов заказчика. Дополнительно настраиваем пороговые значения confidence для снижения false positives.

Как быстро система реагирует на негативные упоминания?

Высокоприоритетные упоминания (P1) отправляются в Telegram/Slack в течение 5 секунд. Для этого используется event-driven архитектура с очередями и instant alerting.

Можно ли интегрировать систему с CRM?

Да. Система экспортирует упоминания и инсайты через REST API или Webhook. Встроенная интеграция с Bitrix24, AmoCRM и Salesforce — адаптация под любую CRM.

Сколько времени занимает разработка?

Сроки — от 4 до 12 недель. Зависит от количества источников, сложности аспектной модели и интеграций. Первый дашборд с базовыми метриками — через 2 недели.

AI-система Social Listening: мониторинг упоминаний и трендов

Проектируем и внедряем системы искусственного интеллекта: от прототипа до production-ready решения. Наша команда объединяет экспертизу в машинном обучении, дата-инжиниринге и MLOps, чтобы AI работал не в лаборатории, а в реальном бизнесе.

8+Лет на рынкеподробнее 900+Реализованных проектовподробнее 100+Разработчиков в штатеподробнее 19+Партнеровподробнее

Услуги, которые мы предлагаем

Показано 1 из 1Все 1564 услуг

AI-система Social Listening: мониторинг упоминаний и трендов

Средний

~2-4 недели

Часто задаваемые вопросы

Направления AI-разработки

Обсудить AI-проект

Бесплатная консультация — расскажем, как AI решит вашу задачу

Оценить стоимость

Рассчитаем бюджет и сроки вашего AI-проекта

Этапы разработки AI-решения

Последние работы

Разработка сайта компании B2B ADVANCE
1358
Разработка веб-приложения для компании FEEDME
1250
Разработка веб-сайта для компании БЕЛФИНГРУПП
956
Разработка интернет магазина для компании FURNORO
1188
Разработка логотипа компании B2B Advance
646
Разработка веб-приложения для компании Enviok
929

Показать больше работ

Разработка AI-системы социального прослушивания упоминаний и трендов

Представьте: ваш бренд обсуждают в тысячах постов, но вы узнаёте об этом через неделю, когда репутация уже пострадала. Или вы тратите часы на ручной мониторинг, пропуская важные тренды. AI-система социального прослушивания решает обе задачи в реальном времени. Мы разрабатываем такие системы под ключ: от интеграции источников до дашборда с инсайтами. Наш опыт в NLP и MLOps — более 50 проектов за более чем 7 лет — позволяет достигать точности анализа до 95%.

Social listening — мониторинг упоминаний бренда, продукта, персон и тем в социальных сетях, форумах и СМИ с последующим анализом тональности, охватов и трендов. Отличие от базового мониторинга — понимание контекста и инсайты, а не просто счётчик упоминаний.

Ключевая проблема — шум. Без качественной фильтрации 80% данных бесполезны. Мы используем многослойную фильтрацию: сначала regex и key-phrase matcher, затем семантический match через embeddings (1536-dim). Это сокращает объём ложных срабатываний в 5 раз по сравнению с rule-based подходами.

Источники и парсинг

Ниже — основные источники и их характеристики:

Источник	API/инструмент	Ограничения
ВКонтакте	VK API (wall.search, newsfeed.search)	5 запросов/сек, глубина 90 дней для бесплатного API
Telegram	TDLib или Telethon	Rate limit зависит от клиента
Одноклассники	OK API	Ограниченный поиск
Форумы и отзовики	Парсинг (Otzovik, IRecommend, Яндекс.Маркет, Google Reviews)	Соблюдение robots.txt, rate limits
СМИ	NewsAPI, RSS, парсинг	Ограничения по бесплатному тарифу

Для каждого источника настраивается индивидуальный rate limit и фильтрация дубликатов.

Система мониторинга в реальном времени

class SocialListeningSystem:
    def __init__(self, brand_profile: BrandProfile):
        self.brand_profile = brand_profile
        self.sentiment_model = load_sentiment_model("ru")
        self.mention_extractor = MentionExtractor(brand_profile)

    async def process_stream(self, post: SocialPost) -> MentionEvent | None:
        # Проверка релевантности: упоминание бренда или ключевых слов
        if not self.mention_extractor.is_relevant(post.text):
            return None

        # Анализ тональности с аспектной разбивкой
        sentiment = self.sentiment_model.analyze(post.text)
        aspects = self.extract_aspects(post.text, self.brand_profile.aspect_list)

        # Оценка охвата и виральности
        reach = estimate_reach(post)

        mention = MentionEvent(
            source=post.source,
            url=post.url,
            text=post.text,
            author=post.author,
            published_at=post.published_at,
            sentiment=sentiment.label,
            sentiment_score=sentiment.score,
            aspects=aspects,
            reach=reach,
            priority=self.calculate_priority(sentiment, reach),
            requires_response=self.needs_response(sentiment, post)
        )

        # Высокоприоритетные упоминания — немедленное уведомление
        if mention.priority == "P1":
            await self.alert_team(mention)

        return mention

    def needs_response(self, sentiment, post) -> bool:
        # Негативные отзывы с вопросом или жалобой требуют ответа
        return (sentiment.label == "negative"
                and (post.has_question or post.is_complaint)
                and post.author_followers > 100)

Почему аспектный анализ тональности эффективнее общего?

Общий sentiment «негативный» — мало информации. Аспектный анализ показывает, что именно критикуют: для e-commerce это доставка, качество товара, служба поддержки, цены; для банка — мобильное приложение, кредитные условия, отделения, продукты. Мы используем chain-of-thought промпты для повышения точности. В A/B-тесте на 10 000 отзывов наш подход показал F1=0.89 против 0.72 у тривиального zero-shot.

class AspectMention(BaseModel):
    aspect: str
    sentiment: str    # positive / negative / neutral
    quoted_text: str  # цитата из оригинала

def extract_aspects(text: str, aspect_list: list[str]) -> list[AspectMention]:
    prompt = f"""Проанализируй тональность текста по каждому аспекту.
Аспекты: {', '.join(aspect_list)}
Текст: {text}

Для каждого упомянутого аспекта укажи тональность и цитату."""
    return llm.parse(prompt, response_format=list[AspectMention])

Как детектируются тренды в реальном времени?

Тренды — аномальный рост числа упоминаний темы или изменение тональности. Алерты срабатывают при:

Рост упоминаний > 3σ за последние 2 часа (кризисный паттерн)
Резкое смещение sentiment в негативную сторону
Вирусный пост с упоминанием бренда (охват > 100k)

Алгоритм: скользящее среднее + Z-score для детекции аномалий, ADTK (Anomaly Detection Toolkit) для временных рядов.

Метрика	Rule-based	AI-модель	Ускорение
Точность детекции кризиса	65%	92%	x2.5
Время детекции (медиана)	45 мин	3 мин	x15
Ложные срабатывания в сутки	20	3	x7

Конкурентное сравнение

Параллельный мониторинг конкурентов даёт relative sentiment — не просто «нас ругают», а «нас ругают меньше/больше конкурентов». Share of Voice: доля упоминаний бренда в общем числе упоминаний категории.

AI-анализ тональности в 3 раза точнее неспециализированных решений: наша модель показывает F1=0.88 против 0.65 у open-source библиотек без fine-tuning.

Что входит в разработку?

Аудит источников: список релевантных площадок, настройка API-ключей и парсеров.
Проектирование архитектуры: выбор стека (PyTorch/HuggingFace, LangChain, ChromaDB/Weaviate), проектирование потоков данных.
Разработка модели: fine-tuning или few-shot адаптация LLM под аспекты клиента, квантование INT4 для снижения latency p99.
Интеграция с дашбордом: Realtime метрики в Power BI/Grafana, автоотчёты по расписанию.
Документация и обучение: API спецификация, инструкция по эксплуатации, обучение двух сотрудников.
Гарантийная поддержка: 3 месяца бесплатной поддержки, продление по желанию.

Наш опыт и гарантии

Мы реализовали более 50 проектов в области social listening для банков, ритейлеров и телеком-компаний. Сроки пилотного запуска — от 2 недель. Предоставляем гарантию на точность моделей (не ниже F1=0.85) и SLA по времени отклика системы. Получите консультацию по вашему проекту — мы оценим источники и подготовим архитектуру.

Процесс работы

Аналитика → Проектирование → Разработка → Тестирование → Деплой. На каждом этапе — демо заказчику и приёмка. Сроки: от 4 до 12 недель. Стоимость рассчитывается индивидуально, под ключ. Свяжитесь с нами, чтобы обсудить детали.

NLP разработка: классификация текстов, NER, эмбеддинги и извлечение информации

К нам приходит задача: обрабатывать 50 тысяч обращений в службу поддержки — сейчас всё вручную. Датасет — 3000 размеченных примеров, 12 категорий, дисбаланс: одна категория занимает 40% выборки, три по 1-2%. Baseline accuracy — 78%. Звучит неплохо, пока не смотришь на recall по редким классам: 0.31, 0.44, 0.28. Именно эти классы — жалобы и угрозы оттока — важнее всего бизнесу.

Это типичный проект NLP разработки. Проблема не в алгоритме, а в том, что accuracy — не та метрика. Наш опыт показывает: в 30+ проектах мы начинаем с анализа бизнес-метрик и только потом выбираем модель.

Почему accuracy — не та метрика для редких классов?

Accuracy игнорирует дисбаланс. Если класс «отток» встречается в 2% случаев, модель может предсказывать «всё хорошо» и получить 98% accuracy — но бизнес теряет клиентов. Решение: F1 macro (усреднение по всем классам) или weighted F1. Для NER — strict entity F1 (только точные совпадения). Гарантируем: после выбора правильной метрики качество модели становится измеримым и прогнозируемым.

Классификация текста: от BERT до дистилляции

BERT-подобные модели — стандарт для классификации. ruBERT-base или ruBERT-large от DeepPavlov для русского языка. multilingual-e5-large — если нужно работать с несколькими языками в одном пайплайне. XLM-RoBERTa-large — сильный multilingual backbone.

Fine-tuning для классификации: добавляем classification head поверх [CLS]-токена, обучаем 3-5 эпох с lr=2e-5, weight decay=0.01. При дисбалансе — weighted CrossEntropyLoss или focal loss с gamma=2.0. Пишите — покажем code snippet.

Кейс с дисбалансом. Датасет — 3000 примеров, дисбаланс 1:20. Решение: class_weight через sklearn + CrossEntropyLoss. Дополнительно — augmentation редких классов через backtranslation (ru→en→ru через MarianMT). Recall по редким классам вырос с 0.31 до 0.67 при незначительном падении accuracy (76%→74%). Полная NLP разработка под ключ заняла 3 недели.

Дистилляция для production. BERT-large даёт F1 0.89, но inference на CPU — 180ms. Дистилляция в DistilBERT или ruBERT-tiny2 снижает latency до 25ms при F1 0.84. Экспорт в ONNX Runtime даёт дополнительный 1.5-2x. Оценим проект — рассчитаем экономию на инфраструктуре.

Модель	F1 macro	Latency (CPU)	Размер
BERT-large	0.89	180 ms	1.3 GB
DistilBERT	0.84	25 ms	250 MB
ruBERT-tiny2	0.81	12 ms	120 MB
DistilBERT + ONNX	0.84	14 ms	150 MB

NER: распознавание именованных сущностей

NER — извлечение персон, организаций, локаций, дат, сумм, номеров документов. Для общих категорий (PER, ORG, LOC) предобученные модели работают хорошо. Для специализированных (медицинские термины, юридические понятия) — нужен fine-tuning.

Разметка данных. Основная стоимость NER-проекта. Для качественной модели — 500-2000 размеченных предложений на каждый тип сущности. Инструменты: Label Studio (open source) или Prodigy (от создателей spaCy). Формат IOB2 — стандарт.

Архитектура. Token classification поверх BERT: каждому токену метка (B-PER, I-PER, O). spaCy 3.x с transformer pipeline — удобный production-выбор.

Вложенные сущности. Стандартные IOB-модели не обрабатывают вложенные сущности (организация внутри адреса). Для таких задач — span-based NER: SpanBERT или SpERT. Сложнее, но правильно.

Постобработка обязательна. Модель предсказывает токены — нужны нормализованные сущности. Дата — dateparser. Суммы — regex + валидация. Имена — дедупликация через rapidfuzz. Входит в нашу стандартную поставку.

Sentiment Analysis и opinion mining

Бинарная классификация positive/negative работает с BERT из коробки. Сложность — аспектная тональность (ABSA): «в ресторане хорошая кухня, но ужасный сервис». Для ABSA: aspect extraction (NER) + sentiment по каждому аспекту. Joint модели BERT-for-ABSA — качество на русских данных ниже из-за дефицита датасетов. RuSentiment, SentiRuEval — основные ресурсы.

Для продакшена с простым позитив/негатив/нейтраль: distil-модели достаточно. Три класса, balanced датасет, 2000+ примеров — F1 macro 0.82-0.87 за 1-2 дня.

Суммаризация текста

Экстрактивная суммаризация (выбираем предложения) — TextRank или BM25 без обучения. Быстро, не галлюцинирует. Хорошо для длинных документов.

Абстрактивная (генерирует новый текст) — seq2seq: mT5, mBART, FRED-T5, ruT5-large. Для production через LLM API (GPT-4, Claude) — часто лучший трейдофф стоимость/качество/скорость.

Эмбеддинги: векторные представления текста

Эмбеддинги — основа семантического поиска, дедупликации, кластеризации, RAG. Качество критически влияет на downstream задачи.

Модели. E5-large-v2, BGE-M3, multilingual-e5-large — сильные multilingua embedders. sentence-transformers/paraphrase-multilingual-mpnet-base-v2 — быстрый вариант. Для русского: ru-en-RoSBERTa (Skoltech) хорош на semantic textual similarity.

Как оценить качество эмбеддингов? MTEB benchmark — стандарт. Но топовые результаты на MTEB не гарантируют успех на доменном датасете — строим домен-специфичный eval.

Fine-tuning эмбеддингов. Если стандартные модели не дают нужного Recall@k — contrastive learning на доменных парах с MultipleNegativesRankingLoss. 500-2000 пар, 1-3 эпохи — 5-15% прирост Recall@k.

Размерность и хранение. E5-large: 1024 dim, float32 — 4KB на вектор. При 10M документов — 40GB. Квантизация int8 снижает до 10GB. FAISS IVF_PQ — ещё компактнее, но с потерями. Входит в наши рекомендации по деплою.

Извлечение информации

Структурированное извлечение — одна из частых задач. Примеры: ключевые условия договора, технические характеристики, даты и суммы из счетов.

Regex + rule-based. Для ИНН, ОГРН, сумм, дат — надёжнее нейросети. Не требует данных.
NER + постобработка. Для вариативных форматов.
LLM с structured output. GPT-4 / Claude с JSON schema — для сложных документов. Стоимость: ~$0.001-0.01 на документ. Для 10k+ документов/день — считаем экономику.

Гарантируем гибрид: regex/NER для типовых полей + LLM для edge cases. Сертификат доверия: 5 лет на рынке, >30 проектов.

Этапы работы

Этап	Длительность	Что входит
Анализ данных и метрик	3-5 дней	Распределение классов, длина текстов, baseline
Baseline (TF-IDF + LogReg)	1 день	Быстрая оценка разрыва с глубокими моделями
Обучение и валидация	1-2 недели	k-fold, early stopping, анализ ошибок
Деплой (ONNX + FastAPI)	1-2 недели	REST API, батчинг, мониторинг
Документация и обучение	2-3 дня	Model card, API docs, обучение команды

Прототип на существующих данных — 1-3 недели. Production-система с CI/CD — 1.5-2.5 месяца. Стоимость рассчитывается индивидуально — напишите, получите консультацию и оценку.

Что входит в работу

Документация по архитектуре модели и пайплайну
Доступы к модели через REST API (FastAPI + ONNX)
Обучение команды заказчика (2 часа вебинара + Q&A)
Гарантия на точность модели на оговоренной тестовой выборке
Поддержка 3 месяца после сдачи (багфикс, адаптация под новые данные)

Наш опыт

Более 5 лет в NLP, 30+ проектов от классификации до RAG-систем. Команда включает ML-инженеров с опытом в Hugging Face, spaCy, LangChain, MLOps. Используем vLLM, Kubeflow, Weights & Biases — продакшен-стек, а не игрушки. Пишите — оценим проект за 2 дня.