Реализация AI-конспектирования текста в мобильном приложении
Конспектирование — задача на первый взгляд простая: дать LLM длинный текст, получить краткое изложение. На практике проблема в том, что текст может быть в 10 раз длиннее контекстного окна, прилетать частями (из потокового источника), или требовать структурированного вывода, а не просто абзаца.
Длинные документы: chunking и map-reduce суммаризация
gpt-4o поддерживает 128k токенов контекста, но гонять туда весь документ каждый раз дорого и медленно. Стандартный паттерн — map-reduce:
- Разбиваем документ на чанки по 2000–3000 токенов с перекрытием ~200 токенов
- Суммаризируем каждый чанк независимо (map)
- Суммаризируем список суммаризаций в финальный конспект (reduce)
// iOS
func summarizeDocument(_ text: String) async throws -> String {
let chunks = chunkText(text, maxTokens: 2500, overlap: 200)
// Параллельная суммаризация чанков
let partialSummaries = try await withThrowingTaskGroup(of: String.self) { group in
for chunk in chunks {
group.addTask { try await self.summarizeChunk(chunk) }
}
var results = [String]()
for try await result in group { results.append(result) }
return results
}
// Финальный reduce
let combined = partialSummaries.joined(separator: "\n\n")
return try await summarizeChunk(combined, isFinal: true)
}
func chunkText(_ text: String, maxTokens: Int, overlap: Int) -> [String] {
// ~4 символа = 1 токен для русского текста (приблизительно)
let chunkSize = maxTokens * 3
let overlapSize = overlap * 3
var chunks = [String]()
var start = text.startIndex
while start < text.endIndex {
let end = text.index(start, offsetBy: chunkSize, limitedBy: text.endIndex) ?? text.endIndex
chunks.append(String(text[start..<end]))
guard let nextStart = text.index(start, offsetBy: chunkSize - overlapSize, limitedBy: text.endIndex) else { break }
start = nextStart
}
return chunks
}
withThrowingTaskGroup — параллельный запуск для каждого чанка. Для 10 чанков это в 5–7 раз быстрее последовательной обработки.
Форматы вывода
Конспект может быть нескольких типов. Промпты под каждый:
| Тип | Промпт-инструкция |
|---|---|
| Краткое изложение | «Summarize in 3-5 sentences. Key points only.» |
| Буллеты | «Extract 5-8 key points as bullet list. Each point = one idea.» |
| Mind-map JSON | «Return JSON: {title, branches: [{topic, subtopics: []}]}» |
| Q&A | «Generate 5 questions and answers based on the text.» |
| Action items | «Extract only action items and deadlines. Format: - [Task]: [Deadline/Owner]» |
Для структурированного вывода используем response_format: { type: "json_object" } в OpenAI API — модель обязана вернуть валидный JSON, без markdown-обёртки.
let requestBody: [String: Any] = [
"model": "gpt-4o-mini",
"messages": messages,
"response_format": ["type": "json_object"],
"temperature": 0.2
]
Суммаризация в реальном времени: лекции и митинги
Если источник — микрофон (запись лекции, митинга), конспект строится поверх транскрибации. Поток:
AVAudioEngine → фрагменты по 30 сек → SpeechRecognizer (Whisper API или нативный SFSpeechRecognizer) → накопленный транскрипт → суммаризация с rolling window.
// Суммаризация каждые 5 минут транскрипта с перекрытием
class LiveSummaryEngine {
private var transcript = ""
private var lastSummaryLength = 0
func onNewTranscript(_ chunk: String) {
transcript += " " + chunk
// Суммаризируем новый блок при накоплении ~2000 слов
let wordCount = transcript.split(separator: " ").count
if wordCount - lastSummaryLength > 2000 {
Task { await summarizeNewBlock() }
lastSummaryLength = wordCount
}
}
private func summarizeNewBlock() async {
let newContent = transcript.components(separatedBy: " ")
.dropFirst(max(0, lastSummaryLength - 200)) // перекрытие 200 слов
.joined(separator: " ")
let summary = try? await llmService.summarize(newContent)
await MainActor.run { appendToNotes(summary ?? "") }
}
}
На Android аналог через SpeechRecognizer + MediaRecorder с чанкингом по RECOGNIZER_RESULT_STABILITY.
Хранение и поиск конспектов
Конспекты должны быть доступны офлайн и поддерживать поиск. На iOS — Core Data или SwiftData с полнотекстовым индексом через NSPersistentStoreDescription с SQLite FTS5. На Android — Room с @Fts4 или @Fts5 аннотацией.
Семантический поиск (по смыслу, не по словам) — через векторные эмбеддинги, хранимые локально в SQLite-VSS или на сервере через pgvector. Для мобильного приложения достаточно серверного поиска по embeddings с кэшем результатов.
Ориентиры по срокам
Базовое суммаризирование документа через API — 2–3 дня. Map-reduce для длинных документов + несколько форматов вывода — 1.5 недели. Live-конспектирование с транскрипцией — 3–4 недели.







