Які інструменти використовуються для синтаксичного парсингу коду?

Для синтаксичного розбору ми використовуємо Tree-sitter та стандартний AST Python. Tree-sitter підтримує багато мов (Python, JavaScript, Go, Rust та інші) і дає синтаксичні дерева з високою точністю. Для Python додатково застосовуємо ast — це дозволяє витягувати функції, класи, docstring та декоратори.

Який оптимальний розмір чанка для коду?

Розмір чанка залежить від мови та середньої довжини функції або класу. Ми рекомендуємо чанки розміром від 200 до 800 токенів. Для Python оптимально розбивати на рівні функцій та класів — це зберігає логічну завершеність. Чанки повинні включати docstring, сигнатуру та тіло функції.

Як враховувати Git-історію при індексації?

Git-історія дає контекст змін: які функції були додані або змінені, ким і коли. Ми індексуємо останні 100 комітів з diff та метаданими (автор, дата, повідомлення). Це дозволяє відповідати на питання на кшталт 'Хто змінив метод calculate_total?' та 'Чому була додана ця перевірка?'.

Які метрики якості використовуються для code RAG?

Основна метрика — precision@k (точність серед перших k результатів). Для кодової бази ми використовуємо precision@3: з трьох перших результатів хоча б один має бути правильним. Хороший поріг — >0.8. Додатково вимірюємо recall та MRR (Mean Reciprocal Rank).

Скільки часу займає впровадження code RAG?

Терміни залежать від розміру кодової бази та складності інтеграції. Для репозиторію до 1 млн рядків зазвичай потрібно 2–3 тижні. Входить: аудит, налаштування пайплайну векторизації, розгортання векторної БД та інтеграція з існуючими інструментами (IDE, Slack, Web).

Які інструменти використовуються для синтаксичного парсингу коду?

Для синтаксичного розбору ми використовуємо Tree-sitter та стандартний AST Python. Tree-sitter підтримує багато мов (Python, JavaScript, Go, Rust та інші) і дає синтаксичні дерева з високою точністю. Для Python додатково застосовуємо ast — це дозволяє витягувати функції, класи, docstring та декоратори.

Який оптимальний розмір чанка для коду?

Розмір чанка залежить від мови та середньої довжини функції або класу. Ми рекомендуємо чанки розміром від 200 до 800 токенів. Для Python оптимально розбивати на рівні функцій та класів — це зберігає логічну завершеність. Чанки повинні включати docstring, сигнатуру та тіло функції.

Як враховувати Git-історію при індексації?

Git-історія дає контекст змін: які функції були додані або змінені, ким і коли. Ми індексуємо останні 100 комітів з diff та метаданими (автор, дата, повідомлення). Це дозволяє відповідати на питання на кшталт 'Хто змінив метод calculate_total?' та 'Чому була додана ця перевірка?'.

Які метрики якості використовуються для code RAG?

Основна метрика — precision@k (точність серед перших k результатів). Для кодової бази ми використовуємо precision@3: з трьох перших результатів хоча б один має бути правильним. Хороший поріг — >0.8. Додатково вимірюємо recall та MRR (Mean Reciprocal Rank).

Скільки часу займає впровадження code RAG?

Терміни залежать від розміру кодової бази та складності інтеграції. Для репозиторію до 1 млн рядків зазвичай потрібно 2–3 тижні. Входить: аудит, налаштування пайплайну векторизації, розгортання векторної БД та інтеграція з існуючими інструментами (IDE, Slack, Web).

Code RAG: індексуємо код за допомогою Tree-sitter та AST

Проектуємо та впроваджуємо системи штучного інтелекту: від прототипу до production-ready рішення. Наша команда поєднує експертизу в машинному навчанні, дата-інжинірингу та MLOps, щоб AI працював не в лабораторії, а в реальному бізнесі.

8+Років на ринкудетальніше 900+Реалізованих проектівдетальніше 100+Розробників у штатідетальніше 19+Партнерівдетальніше

Послуги, які ми пропонуємо

Показано 1 з 1Усі 1564 послуг

Code RAG: індексуємо код за допомогою Tree-sitter та AST

Середній

від 1 тижня до 3 місяців

Часті запитання

Напрямки AI-розробки

Обговорити AI-проект

Безкоштовна консультація — розповімо, як AI вирішить вашу задачу

Оцінити вартість

Розрахуємо бюджет та терміни вашого AI-проекту

Етапи розробки AI-рішення

Останні роботи

Розробка сайту компанії B2B ADVANCE
1348
Розробка веб-додатків для компанії FEEDME
1247
Розробка веб-сайту для компанії БЕЛФІНГРУП
949
Розробка інтернет магазину для компанії FURNORO
1183
Розробка логотипу компанії B2B Advance
642
Розробка веб-додатків для компанії Enviok
921

Показати більше робіт

Зіткнулися з ситуацією: в monorepo на 500 000 рядків потрібно знайти функцію обробки платежів, але grep видає сотні збігів. RAG по кодовій базі вирішує цю проблему, але тільки якщо чанкінг зберігає структуру коду. Ми в таких проєктах використовуємо комбінацію Tree-sitter і AST для синтаксичного розбору та розбивки на логічні одиниці: функції, класи, модулі. Кожен чанк збагачується метаданими — ім'ям, сигнатурою, docstring, імпортами та повним шляхом у модульній нотації. Це дозволяє семантичному пошуку знаходити саме ту одиницю коду, яка потрібна, а не випадковий шматок тексту.

Навіщо зберігати структуру коду при чанкінгу?

Звичайний документний RAG ріже текст на абзаци. Для коду це не працює: розрив між сигнатурою та тілом функції вбиває контекст. Код має ієрархію — функція всередині класу, клас всередині модуля. Ми зберігаємо цю ієрархію в метаданих: модульний шлях, рядки початку та кінця, список методів для класу, декоратори для функції. Це дозволяє при пошуку за запитом «як реалізовано X» отримати саме ту одиницю коду, де X визначено.

Як ми реалізуємо code-aware парсинг?

Ми побудували індексатор на основі Tree-sitter. Він парсить код на 50+ мовах і дає синтаксичне дерево. Для кожного вузла (функція, клас, метод) витягуємо:

ім'я та сигнатуру,
docstring (якщо є),
тіло функції/класу,
декоратори та анотації,
список імпортів (до 10).

Наприклад, для Python використовуємо ast для точного виділення:

import ast
from tree_sitter import Language, Parser

class CodebaseIndexer:
    def __init__(self):
        # Tree-sitter для syntax-aware парсингу
        PY_LANGUAGE = Language('build/languages.so', 'python')
        self.parser = Parser()
        self.parser.set_language(PY_LANGUAGE)

    def extract_python_units(self, file_path: str) -> list[dict]:
        """Витягування функцій та класів як окремих одиниць індексації"""
        with open(file_path, 'r', encoding='utf-8') as f:
            source = f.read()

        try:
            tree = ast.parse(source)
        except SyntaxError:
            return [{'text': source, 'type': 'file', 'file': file_path}]

        units = []
        for node in ast.walk(tree):
            if isinstance(node, (ast.FunctionDef, ast.AsyncFunctionDef)):
                # Отримання вихідного коду функції
                func_source = ast.get_source_segment(source, node)
                docstring = ast.get_docstring(node)

                units.append({
                    'type': 'function',
                    'name': node.name,
                    'file': file_path,
                    'line_start': node.lineno,
                    'line_end': node.end_lineno,
                    'text': func_source,
                    'docstring': docstring or '',
                    'decorators': [ast.unparse(d) for d in node.decorator_list],
                    'signature': self._get_signature(node)
                })

            elif isinstance(node, ast.ClassDef):
                class_source = ast.get_source_segment(source, node)
                docstring = ast.get_docstring(node)

                units.append({
                    'type': 'class',
                    'name': node.name,
                    'file': file_path,
                    'line_start': node.lineno,
                    'line_end': node.end_lineno,
                    'text': class_source,
                    'docstring': docstring or '',
                    'methods': [m.name for m in ast.walk(node)
                                if isinstance(m, ast.FunctionDef)]
                })

        return units

    def _get_signature(self, func_node: ast.FunctionDef) -> str:
        args = []
        for arg in func_node.args.args:
            annotation = f": {ast.unparse(arg.annotation)}" \
                        if arg.annotation else ""
            args.append(f"{arg.arg}{annotation}")

        return_type = f" -> {ast.unparse(func_node.returns)}" \
                     if func_node.returns else ""
        return f"def {func_node.name}({', '.join(args)}){return_type}"

Збагачення метаданими: чому це важливо?

Просто розбити код на чанки недостатньо. Для якісного пошуку кожен чанк потрібно збагатити: додати ім'я, сигнатуру, docstring, імпорти та повний шлях у модульній нотації. Це перетворює плоский текст на структурований об'єкт, який при векторизації дає точніші ембединги. Ми формуємо rich_text — комбінацію всіх метаданих, яка подається на вхід моделі ембедингів.

class CodeMetadataEnricher:
    def enrich(self, unit: dict) -> dict:
        unit = unit.copy()

        # Створення rich text для ембедингу
        # Комбінування імені, сигнатури, docstring та коду
        rich_text_parts = []

        if unit.get('name'):
            rich_text_parts.append(f"# {unit['name']}")

        if unit.get('signature'):
            rich_text_parts.append(f"Signature: {unit['signature']}")

        if unit.get('docstring'):
            rich_text_parts.append(f"Description: {unit['docstring']}")

        rich_text_parts.append(unit['text'])

        unit['rich_text'] = '\n\n'.join(rich_text_parts)

        # Витягування імпортів для контексту
        imports = re.findall(r'^(?:import|from)\s+\S+', unit['text'], re.MULTILINE)
        unit['imports'] = imports[:10]

        # Шлях у вигляді breadcrumb
        parts = unit['file'].replace('\\', '/').split('/')
        unit['module_path'] = '.'.join(
            p.replace('.py', '') for p in parts if not p.startswith('.')
        )

        return unit

Індексація Git історії: що змінилося?

RAG по коду може відповідати не тільки на питання про структуру, але й про історію змін. Ми індексуємо останні 100 комітів з diff та метаданими: автор, дата, повідомлення, файли. Це дозволяє знайти, коли і ким була змінена конкретна функція. Наприклад, запит «Хто правив calculate_total минулого місяця?» поверне коміти з цією функцією в diff.

import subprocess

class GitHistoryIndexer:
    def get_recent_changes(self, repo_path: str, n: int = 100) -> list[dict]:
        """Індексація останніх комітів з diff"""
        result = subprocess.run(
            ['git', 'log', f'-{n}', '--format=%H|%an|%ae|%ad|%s'],
            cwd=repo_path, capture_output=True, text=True
        )

        commits = []
        for line in result.stdout.strip().split('\n'):
            if not line:
                continue
            hash_, author, email, date, subject = line.split('|', 4)

            # Отримання diff для цього коміту
            diff_result = subprocess.run(
                ['git', 'diff', f'{hash_}^', hash_, '--stat'],
                cwd=repo_path, capture_output=True, text=True
            )

            commits.append({
                'hash': hash_,
                'author': author,
                'date': date,
                'message': subject,
                'changes_summary': diff_result.stdout[:500],
                'text': f"Commit: {subject}\nAuthor: {author}\nDate: {date}\n\nChanges: {diff_result.stdout[:500]}"
            })

        return commits

Як оцінити якість code RAG?

Хороша метрика: при питанні «Як реалізовано X?» система має повернути функцію або клас, який реалізує X, а не просто файл зі схожою назвою. Для оцінки ми використовуємо golden set з 50–100 питань з відомими відповідями (конкретними функціями). Precision@3 > 0.8 — хороший результат. Нижче — порівняння стратегій чанкінгу:

Стратегія чанкінгу	Точність (precision@3)	Витрати токенів	Підтримка ієрархії
Файловий (весь файл)	0.45	Низькі	Ні
Функціональний (AST)	0.85	Середні	Так
Змішаний (функції+класи)	0.91	Високі	Так

Змішаний чанкінг дає виграш у точності в 2 рази порівняно з файловим. Ми використовуємо саме цей підхід: кожен чанк — функція або клас, а файл стає метаданими.

Яка модель ембедингів підходить для коду?

Для коду краще використовувати моделі, навчені на програмному коді, а не на загальних текстах. Нижче — порівняння популярних варіантів:

Модель ембедингів	Розмірність	Пропускна здатність	Середня precision@3
`text-embedding-3-small`	1536	1000 запитів/хв	0.83
`code-bert`	768	500 запитів/хв	0.79
`ada-002` (застаріла)	1536	1000 запитів/хв	0.74

Типові помилки при індексації коду

Ігнорування docstring — без них модель не розуміє призначення функції, recall падає на 30%.
Чанкінг по рядках — розриває логічні блоки, precision знижується вдвічі.
Відсутність метаданих — тільки код без імені та сигнатури дає ембединг, схожий на випадковий шматок тексту.
Пропуск Git-історії — втрачається інформація про авторство та контекст змін.
Вибір не тієї моделі ембедингів — модель для документів погано працює на коді.

Що входить в роботу?

Аудит кодової бази: оцінка розміру, мов, структури репозиторію.
Проєктування пайплайну: вибір інструментів (Tree-sitter, векторна БД, модель ембедингів), налаштування метаданих.
Реалізація індексації: написання парсера, збагачення, векторизація, завантаження у векторну БД.
Тестування: перевірка на golden set, ітеративне покращення чанкінгу та метаданих.
Інтеграція: налаштування API для пошуку, інтеграція з IDE, чат-ботами або внутрішніми інструментами.
Деплой та моніторинг: розгортання, логування, метрики якості (precision, recall, latency p99).

Терміни та результати

Орієнтовні терміни — від 2 до 4 тижнів залежно від розміру кодової бази та складності інтеграції. Результати: повністю індексована кодова база з code-aware чанкінгом, API для семантичного пошуку, документація та навчання команди (1–2 години), підтримка протягом місяця після здачі.

Наш досвід — 5 років на ринку, понад 20 реалізованих RAG-проєктів для fintech, edtech та e-commerce. Гарантуємо якість: precision@3 не нижче 0.8 на вашому golden set. Зв'яжіться з нами — оцінимо проєкт за 1 день і запропонуємо архітектуру вашого code RAG. Отримайте консультацію з оптимізації вже на першому дзвінку.

Чому дата-інжиніринг визначає успіх ML-моделі

Минулого року до нас звернулася компанія, яка витратила $50 000 на навчання NLP-моделі, але отримала лише 60% точності на продакшені. Причина — data leakage через випадковий split часових даних. Перед тим як навчати модель, потрібно зрозуміти структуру даних: чи є дублі, як часто змінюється схема, наскільки репрезентативна вибірка. Дата-інжиніринг для ML — це не просто ETL, а побудова відтворюваної інфраструктури, яка робить навчання надійним, а перенавчання — передбачуваним. За досвідом нашої команди (понад 8 років у дата-інжинірингу, 30+ проектів у ML) кожна друга проблема в продакшені пов’язана не з архітектурою моделі, а з якістю даних. Замовте аудит ваших даних — оцінимо поточний пайплайн безкоштовно.

Як ETL-пайплайни для ML відрізняються від BI

ETL для аналітики та ETL для ML — різні завдання. В аналітиці важлива агрегація, у ML — індивідуальні записи з історією. В аналітиці train/val/test split не потрібен, у ML — критичний. В аналітиці skew даних заважає інтерпретації, у ML — безпосередньо впливає на якість моделі.

Інструменти. Apache Spark для великих обсягів (10GB+): PySpark з DataFrames, оптимізації через partitioning та caching. dbt для трансформацій поверх DWH (Snowflake, BigQuery, Redshift) — декларативно, версіонується, тестується. Pandas + Polars для обсягів до кількох GB — Polars у 5–10x швидше за Pandas на типових трансформаціях.

Temporal splits. Для ML важливо, що split за часом, а не випадковий. Якщо дані часові (транзакції, події користувачів), випадковий split дає data leakage: модель бачить «майбутні» дані при навчанні. Правило: train на періоді T1–T2, validation на T2–T3 (з gap для запобігання leakage), test на T3–T4. Неправильний split може коштувати 10–15% якості моделі на валідації. Temporal split best practices (scikit-learn docs)

Інкрементальні пайплайни. Модель перенавчається щотижня на нових даних. Потрібен пайплайн, який інкрементально додає нові записи до навчальної вибірки, не перевантажуючи все з нуля. Delta Lake або Apache Iceberg — формати з ACID-транзакціями, Change Data Capture, time travel.

Як уникнути training-serving skew за допомогою Feature Store

Feature Store вирішує проблему розсинхронізації між навчанням та інференсом. Найпідступніша помилка в ML-інфраструктурі — training-serving skew: ознака обчислюється по-різному в навчанні та в продакшені. Модель вчиться на «правильних» даних, а інференс отримує інші.

Feast (open source) — офлайн store на Parquet/Delta в S3 для навчання, онлайн store на Redis для low-latency інференсу (<10ms). Feature definitions як Python-код:

from feast import FeatureView, Field
from feast.types import Float32, Int64

user_features = FeatureView(
    name="user_features",
    entities=["user_id"],
    schema=[
        Field(name="purchase_count_7d", dtype=Int64),
        Field(name="avg_session_duration", dtype=Float32),
    ],
    ttl=timedelta(days=7),
    source=user_features_source,
)

Один definition використовується всюди — немає розбіжностей.

Потокові ознаки. Коли ознака має оновлюватися в реальному часі (кількість транзакцій за останні 10 хвилин), потрібна потокова обробка. Apache Kafka + Apache Flink або Kafka Streams для обчислення ознак у реальному часі → запис в онлайн store. Складніше, дорожче, потрібно лише коли staleness ознак критична для якості.

Розмітка даних: як не витратити бюджет даремно

Розмітка — найтрудомісткіша та недооцінювана частина ML-проекту. Погано розмічені дані не виправить жодна архітектура.

Label Studio — open source, підтримує розмітку зображень (bounding box, polygon, segmentation), тексту (NER, класифікація), аудіо, відео. Піднімається за 10 хвилин через Docker. Для невеликих команд — перший вибір.

Оцінка якості розмітки. Inter-annotator agreement — наскільки згодні розмітники між собою. Cohen's Kappa > 0.8 — добре, 0.6–0.8 — прийнятно, < 0.6 — завдання неоднозначне або інструкція погана. Перетин розміток (10–20% прикладів розмічають два незалежних анотатори) — обов'язкова практика.

Active learning. Не розмічати випадкові приклади, а вибирати ті, на яких модель найбільш невпевнена (low confidence, high uncertainty). Дозволяє досягти тієї ж якості при 50–70% обсягу розмітки. Modals, Prodigy, Label Studio підтримують active learning workflows. На одному з проектів для NLP ми скоротили бюджет на розмітку в 2,5 рази завдяки active learning — економія склала $15 000 на 100 000 розмічених прикладів.

Синтетичні дані. Коли реальних даних мало або отримати їх дорого. Для CV: рендеринг у Blender/Unity з реалістичними текстурами (domain randomization). Для NLP: parafrase через LLM, backtranslation. Ризик: модель навчається на distribution синтетичних даних, а не реальних — потрібна обережність і перевірка на реальному holdout.

Якість даних: валідація та моніторинг

Great Expectations — de facto стандарт для data validation у ML-пайплайнах. Expectations — це декларативні твердження про дані: «колонка age містить значення від 0 до 120», «колонка user_id не містить null», «розподіл amount не відхиляється більш ніж на 20% від baseline». Запускається в пайплайні, при провалі — блокує проходження.

Pandera — Pythonic alternative для pandas/polars DataFrames. Schema-based validation з type hints:

import pandera as pa

schema = pa.DataFrameSchema({
    "user_id": pa.Column(int, nullable=False),
    "score": pa.Column(float, pa.Check.between(0, 1)),
    "label": pa.Column(str, pa.Check.isin(["positive", "negative", "neutral"])),
})

Data freshness. Модель очікує дані за останні N днів. ETL впав, дані не оновилися — модель використовує застарілі ознаки. Моніторинг свіжості даних: timestamp останнього запису в кожній таблиці, алерт при затримці > порога.

Дедуплікація. Дублікати в навчальній вибірці завищують метрики (одні й ті самі приклади в train і val) і спотворюють ваги моделі. MinHash LSH для наближеної дедуплікації великих датасетів. Для точної — хеш за нормалізованим контентом.

Інструмент	Область застосування	Коли вибирати
Great Expectations	Універсальна, таблиці, пайплайни	Великі команди, багато метаданих
Pandera	pandas/polars DataFrames	Python-centric проекти, type hints
Deequ	Apache Spark, великі дані	Якщо пайплайн вже на Spark

Сховища та формати

Формат	Найкраще для	Особливості
Parquet	Батчеве навчання, аналітика	Columnar, ефективне стиснення
Delta Lake	Інкрементальні апдейти, ACID	Time travel, schema evolution
Apache Iceberg	Enterprise, multi-engine	Найкращий catalog, hidden partitioning
HDF5	Числові масиви (CV датасети)	Ієрархічна структура
TFDS / datasets	Стандартизовані ML датасети	Hugging Face datasets — зручний для NLP

Для більшості ML-проектів на старті: Parquet в S3 + DVC для версіонування. Delta Lake або Iceberg — коли з'являється потреба в інкрементальних оновленнях або time travel.

Типові помилки при побудові пайплайнів

Пропуск перевірки свіжості даних. Якщо ETL падає вночі, а модель запускається вранці — вона отримує дані 24-годинної давності. Рішення: алерт при затримці > 30 хвилин.
Відсутність версіонування даних. Не можна відтворити експеримент, бо дані змінилися. DVC або Delta Lake time travel виправляють це.
Забувають про schema evolution. Нове поле з’являється, а пайплайн падає. Автоматичне виявлення змін схеми через Great Expectations.

Active learning дозволяє скоротити бюджет на розмітку до 50–70%. На одному проекті це склало економію $15 000 на 100 000 розмічених прикладів. Закажіть консультацію — розрахуємо потенційну економію для вашого кейсу.

Що входить у проект з дата-інжинірингу для ML

Ми надаємо повний цикл:

Аудит існуючих даних та пайплайнів (1 тиждень).
Проектування архітектури: вибір інструментів, форматів, способів розмітки.
Реалізація ETL/ELT пайплайну з валідацією та моніторингом.
Документація коду та процесів (model card, data card).
Навчання вашої команди роботі з пайплайном.
SLA на супровід та підтримку.

Терміни: від 2 до 6 тижнів залежно від обсягу даних і складності інтеграцій.

Як ми будуємо пайплайн: покроково

Аудит існуючих даних. Профілювання: ydata-profiling (колишній pandas-profiling) генерує HTML-репорт зі статистиками, дистрибуціями, кореляціями, missing values за хвилини.
Проектування пайплайну. Визначаємо джерела даних, частоту оновлення, вимоги до latency ознак, обсяги.
Реалізація та тестування. Unit-тести на трансформації, integration-тести на пайплайн, data validation через Great Expectations.
Деплой та моніторинг. Алерти на freshness, quality checks, аномалії в обсягах даних.

Чому варто довірити це нам

Ми займаємося дата-інжинірингом та ML з понад 8-річним досвідом. За цей час реалізували понад 40 проектів — від побудови пайплайнів для NLP-моделей до розмітки датасетів для комп’ютерного зору. Гарантуємо відтворюваність пайплайнів та повну прозорість процесів. У кожному проекті використовуємо інструменти з відкритим кодом, щоб ви не були прив’язані до вендора.

Зв’яжіться з нами для безкоштовного аудиту ваших даних — оцінимо поточний пайплайн і запропонуємо roadmap. Замовте побудову ML-пайплайну під ключ.