DX
Утренний созвон

Прокси «для экономии токенов»
перед LLM API

Класс инструментов, которые встают между нашим кодом и Claude/GPT и обещают резать счёт за токены. Разберём 4 метода по порядку — у каждого своя польза и свои риски.

Все цифры — из проверенных работ 2023–2026 (EMNLP, ACL, NDSS).
Зачем это вообще

За каждый токен мы платим

LLM берёт деньги за объём текста — и за то, что мы отправили, и за то, что она сгенерировала. Длинный промпт × тысячи вызовов = большой счёт. Идея: поставить прослойку, которая уменьшит токены или вызовы.

Наш кодформирует промпт
Middlewareсжимает · кэширует · роутит
LLM APIClaude / GPT

Весь вопрос — что именно делает эта прослойка. Дальше разберём 4 метода по порядку: у каждого своя польза и свои риски.

Карта · какие бывают

4 способа сэкономить на одном вызове

Сжатие промпта

с потерями

Маленькая модель убирает наименее важные токены до отправки в LLM.

LLMLingua — Microsoft, EMNLP 2023 → arXiv:2310.05736

Семантический кэш

условно без

Похожий по смыслу вопрос → отдаём сохранённый ответ, не вызывая API.

GPTCache · приватная альтернатива MeanCache → arXiv:2403.02694

KV-кэш

без потерь

Не пересчитываем общее начало запросов. Нативно в Claude и OpenAI (и в движках вроде vLLM).

prompt caching (Anthropic/OpenAI) · риск утечки → NDSS 2026

Прокси / роутинг

смешанный

Один шлюз перед всеми моделями: простой запрос отправляет на модель подешевле, а заодно считает расходы и кэширует.

LiteLLM, Helicone, Portkey · инцидент → Trend Micro 2026

с потерями — что-то выкидывают, качество может упасть без потерь — переиспользуют посчитанное, ответ тот же
Метод 1 из 4

Сжатие промпта с потерями

Маленькая модель выкидывает наименее важные токены ещё до отправки в дорогую LLM. → LLMLingua (Microsoft)

✅ Польза
  • Сжатие без потери качества — 3–9× (зависит от задачи): рассуждения ~3–5×, диалоги ~9×, суммаризация ~3×таблицы LLMLingua, EMNLP 2023 → arXiv:2310.05736
  • Для прода берут LLMLingua-2: жмёт столько же, но компрессор быстрее и стабильнееACL 2024 → arXiv:2403.12968
🔴 Риски
  • Качество ломается: −52% на few-shot классификации; «непригодно для structured-данных»«Prompt Compression in the Wild», 30 000+ прогонов, TU Dresden → arXiv:2604.02985
  • Теряет ключевые факты на multi-hop QA (HotpotQA, Mistral-7B)AWS AI Labs, EMNLP 2025 → arXiv:2503.19114
  • Часто не ускоряет, а замедляет: само сжатие тоже занимает время, и на быстрых движках (vLLM) и облачных API (GPT/Claude) эта добавка перевешивает выигрыш — на длинных запросах до ~2× медленнее30 000+ прогонов → arXiv:2604.02985
Метод 2 из 4

Семантический кэш условно без потерь

Похожий по смыслу вопрос → отдаём сохранённый ответ, вообще не вызывая API. → GPTCache (классика)

✅ Польза
  • Повторный вопрос = 0 токенов и мгновенный ответ — экономит не токены, а целые вызовы API
  • Отлично для публичного FAQ и неперсональных ответов
🔴 Риски
  • Утечка между пользователями: общий кэш без UserID → юзер B получил баланс счёта юзера Aреальный баг, март 2026 → semantic-router #1448
  • Кража чужих промптов по времени ответа — >95% точности (GPTCache, LangChain, SGLang)«Early Bird» → arXiv:2409.20002
  • Неверный ответ, если порог «похожести» задрать
⚠️ Есть приватная альтернатива — MeanCache

Дизайн, который по задумке снимает утечку: кэш живёт локально у пользователя, похожесть ищется только по его собственной истории, общего хранилища нет. Но это исследовательский прототип, а не зрелый продукт — мало независимых проверок, в боевых проектах пока не обкатан. И приватность не бесплатна: локальный кэш ловит только твои прошлые запросы, общий выигрыш на FAQ для всех пользователей теряется.Cisco / Virginia Tech / UMN → arXiv:2403.02694

Метод 3 из 4

KV-кэш без потерь

Не пересчитываем внутренние вычисления для общего начала запросов. Нативно встроено в Claude и OpenAI (и в движках вроде vLLM).

✅ Польза
  • Экономия без потери качества — ответ ровно тот же, не платим за общий префикс дважды
  • У нас уже есть — это prompt caching самого провайдера (Anthropic/OpenAI), безопасный вариант
🔴 Риски (у сторонних реализаций)
  • Пароли и PII из выгруженного KV-кэша восстанавливают почти дословно (~100%)NDSS 2026 «Shadow in the Cache» → ndss-symposium.org
  • Тайминг по попаданиям в кэш: по времени ответа видно, что префикс уже в общем кэше → пословно восстанавливают чужие и системные промпты; проверено black-box на живых онлайн-сервисах«Early Bird», IEEE TIFS → arXiv:2409.20002
Метод 4 из 4

Прокси / роутинг смешанный

Диспетчер перед всеми провайдерами: простой запрос — на модель подешевле, плюс учёт и кэш. → LiteLLM, Helicone, Portkey

✅ Польза
  • Экономия деньгами: простой запрос уходит на дешёвую модель
  • Единая точка учёта расходов, лимитов и кэша для всех провайдеров
🔴 Риски
  • Supply-chain: у LiteLLM уже была реальная компрометация цепочки поставокразбор → Trend Micro 2026
  • Все промпты в открытом виде в одной точке — логируются и кэшируютсяриски прокси → CSA Research Note
Вердикт

Экономишь токены — платишь чем-то другим

Серебряной пули нет: у каждого инструмента своя цена — за экономию платишь либо качеством, либо скоростью, либо безопасностью.

1 / 7
← → или пробел · F — на весь экран