Утренний созвон

Прокси «для экономии токенов»
перед LLM API

Класс инструментов, которые встают между нашим кодом и Claude/GPT и обещают резать счёт за токены. Разберём 4 метода по порядку — у каждого своя польза и свои риски.

Все цифры — из проверенных работ 2023–2026 (EMNLP, ACL, NDSS).

Зачем это вообще

За каждый токен мы платим

LLM берёт деньги за объём текста — и за то, что мы отправили, и за то, что она сгенерировала. Длинный промпт × тысячи вызовов = большой счёт. Идея: поставить прослойку, которая уменьшит токены или вызовы.

Наш кодформирует промпт

→

Middlewareсжимает · кэширует · роутит

→

LLM APIClaude / GPT

Весь вопрос — что именно делает эта прослойка. Дальше разберём 4 метода по порядку: у каждого своя польза и свои риски.

Карта · какие бывают

4 способа сэкономить на одном вызове

Сжатие промпта

с потерями

Маленькая модель убирает наименее важные токены до отправки в LLM.

LLMLingua — Microsoft, EMNLP 2023 → arXiv:2310.05736

Семантический кэш

условно без

Похожий по смыслу вопрос → отдаём сохранённый ответ, не вызывая API.

GPTCache · приватная альтернатива MeanCache → arXiv:2403.02694

KV-кэш

без потерь

Не пересчитываем общее начало запросов. Нативно в Claude и OpenAI (и в движках вроде vLLM).

prompt caching (Anthropic/OpenAI) · риск утечки → NDSS 2026

Прокси / роутинг

смешанный

Один шлюз перед всеми моделями: простой запрос отправляет на модель подешевле, а заодно считает расходы и кэширует.

LiteLLM, Helicone, Portkey · инцидент → Trend Micro 2026

● с потерями — что-то выкидывают, качество может упасть ● без потерь — переиспользуют посчитанное, ответ тот же

Метод 1 из 4

Сжатие промпта с потерями

Маленькая модель выкидывает наименее важные токены ещё до отправки в дорогую LLM. → LLMLingua (Microsoft)

✅ Польза

Сжатие без потери качества — 3–9× (зависит от задачи): рассуждения ~3–5×, диалоги ~9×, суммаризация ~3×таблицы LLMLingua, EMNLP 2023 → arXiv:2310.05736
Для прода берут LLMLingua-2: жмёт столько же, но компрессор быстрее и стабильнееACL 2024 → arXiv:2403.12968

🔴 Риски

Качество ломается: −52% на few-shot классификации; «непригодно для structured-данных»«Prompt Compression in the Wild», 30 000+ прогонов, TU Dresden → arXiv:2604.02985
Теряет ключевые факты на multi-hop QA (HotpotQA, Mistral-7B)AWS AI Labs, EMNLP 2025 → arXiv:2503.19114
Часто не ускоряет, а замедляет: само сжатие тоже занимает время, и на быстрых движках (vLLM) и облачных API (GPT/Claude) эта добавка перевешивает выигрыш — на длинных запросах до ~2× медленнее30 000+ прогонов → arXiv:2604.02985

Метод 2 из 4

Семантический кэш условно без потерь

Похожий по смыслу вопрос → отдаём сохранённый ответ, вообще не вызывая API. → GPTCache (классика)

✅ Польза

Повторный вопрос = 0 токенов и мгновенный ответ — экономит не токены, а целые вызовы API
Отлично для публичного FAQ и неперсональных ответов

🔴 Риски

Утечка между пользователями: общий кэш без UserID → юзер B получил баланс счёта юзера Aреальный баг, март 2026 → semantic-router #1448
Кража чужих промптов по времени ответа — >95% точности (GPTCache, LangChain, SGLang)«Early Bird» → arXiv:2409.20002
Неверный ответ, если порог «похожести» задрать

⚠️ Есть приватная альтернатива — MeanCache

Дизайн, который по задумке снимает утечку: кэш живёт локально у пользователя, похожесть ищется только по его собственной истории, общего хранилища нет. Но это исследовательский прототип, а не зрелый продукт — мало независимых проверок, в боевых проектах пока не обкатан. И приватность не бесплатна: локальный кэш ловит только твои прошлые запросы, общий выигрыш на FAQ для всех пользователей теряется.Cisco / Virginia Tech / UMN → arXiv:2403.02694

Метод 3 из 4

KV-кэш без потерь

Не пересчитываем внутренние вычисления для общего начала запросов. Нативно встроено в Claude и OpenAI (и в движках вроде vLLM).

✅ Польза

Экономия без потери качества — ответ ровно тот же, не платим за общий префикс дважды
У нас уже есть — это prompt caching самого провайдера (Anthropic/OpenAI), безопасный вариант

🔴 Риски (у сторонних реализаций)

Пароли и PII из выгруженного KV-кэша восстанавливают почти дословно (~100%)NDSS 2026 «Shadow in the Cache» → ndss-symposium.org
Тайминг по попаданиям в кэш: по времени ответа видно, что префикс уже в общем кэше → пословно восстанавливают чужие и системные промпты; проверено black-box на живых онлайн-сервисах«Early Bird», IEEE TIFS → arXiv:2409.20002

Метод 4 из 4

Прокси / роутинг смешанный

Диспетчер перед всеми провайдерами: простой запрос — на модель подешевле, плюс учёт и кэш. → LiteLLM, Helicone, Portkey

✅ Польза

Экономия деньгами: простой запрос уходит на дешёвую модель
Единая точка учёта расходов, лимитов и кэша для всех провайдеров

🔴 Риски

Supply-chain: у LiteLLM уже была реальная компрометация цепочки поставокразбор → Trend Micro 2026
Все промпты в открытом виде в одной точке — логируются и кэшируютсяриски прокси → CSA Research Note

Вердикт

Экономишь токены — платишь чем-то другим

Серебряной пули нет: у каждого инструмента своя цена — за экономию платишь либо качеством, либо скоростью, либо безопасностью.

Прокси «для экономии токенов»перед LLM API

За каждый токен мы платим

4 способа сэкономить на одном вызове

Сжатие промпта

Семантический кэш

KV-кэш

Прокси / роутинг

Сжатие промпта с потерями

Семантический кэш условно без потерь

KV-кэш без потерь

Прокси / роутинг смешанный

Экономишь токены — платишь чем-то другим

Прокси «для экономии токенов»
перед LLM API