Утренний созвон
Прокси «для экономии токенов»
перед LLM API
Класс инструментов, которые встают между нашим кодом и Claude/GPT и обещают резать счёт за токены. Разберём 4 метода по порядку — у каждого своя польза и свои риски.
Зачем это вообще
За каждый токен мы платим
LLM берёт деньги за объём текста — и за то, что мы отправили, и за то, что она сгенерировала. Длинный промпт × тысячи вызовов = большой счёт. Идея: поставить прослойку, которая уменьшит токены или вызовы.
Наш кодформирует промпт
→
Middlewareсжимает · кэширует · роутит
→
LLM APIClaude / GPT
Весь вопрос — что именно делает эта прослойка. Дальше разберём 4 метода по порядку: у каждого своя польза и свои риски.
Карта · какие бывают
4 способа сэкономить на одном вызове
Сжатие промпта
с потерями
Маленькая модель убирает наименее важные токены до отправки в LLM.
LLMLingua — Microsoft, EMNLP 2023 → arXiv:2310.05736
Семантический кэш
условно без
Похожий по смыслу вопрос → отдаём сохранённый ответ, не вызывая API.
GPTCache · приватная альтернатива MeanCache → arXiv:2403.02694
KV-кэш
без потерь
Не пересчитываем общее начало запросов. Нативно в Claude и OpenAI (и в движках вроде vLLM).
prompt caching (Anthropic/OpenAI) · риск утечки → NDSS 2026
Прокси / роутинг
смешанный
Один шлюз перед всеми моделями: простой запрос отправляет на модель подешевле, а заодно считает расходы и кэширует.
LiteLLM, Helicone, Portkey · инцидент → Trend Micro 2026
● с потерями — что-то выкидывают, качество может упасть
● без потерь — переиспользуют посчитанное, ответ тот же
Метод 1 из 4
Сжатие промпта с потерями
Маленькая модель выкидывает наименее важные токены ещё до отправки в дорогую LLM. → LLMLingua (Microsoft)
✅ Польза
- Сжатие без потери качества — 3–9× (зависит от задачи): рассуждения ~3–5×, диалоги ~9×, суммаризация ~3×таблицы LLMLingua, EMNLP 2023 → arXiv:2310.05736
- Для прода берут LLMLingua-2: жмёт столько же, но компрессор быстрее и стабильнееACL 2024 → arXiv:2403.12968
🔴 Риски
- Качество ломается: −52% на few-shot классификации; «непригодно для structured-данных»«Prompt Compression in the Wild», 30 000+ прогонов, TU Dresden → arXiv:2604.02985
- Теряет ключевые факты на multi-hop QA (HotpotQA, Mistral-7B)AWS AI Labs, EMNLP 2025 → arXiv:2503.19114
- Часто не ускоряет, а замедляет: само сжатие тоже занимает время, и на быстрых движках (vLLM) и облачных API (GPT/Claude) эта добавка перевешивает выигрыш — на длинных запросах до ~2× медленнее30 000+ прогонов → arXiv:2604.02985
Метод 2 из 4
Семантический кэш условно без потерь
Похожий по смыслу вопрос → отдаём сохранённый ответ, вообще не вызывая API. → GPTCache (классика)
✅ Польза
- Повторный вопрос = 0 токенов и мгновенный ответ — экономит не токены, а целые вызовы API
- Отлично для публичного FAQ и неперсональных ответов
🔴 Риски
- Утечка между пользователями: общий кэш без UserID → юзер B получил баланс счёта юзера Aреальный баг, март 2026 → semantic-router #1448
- Кража чужих промптов по времени ответа — >95% точности (GPTCache, LangChain, SGLang)«Early Bird» → arXiv:2409.20002
- Неверный ответ, если порог «похожести» задрать
⚠️ Есть приватная альтернатива — MeanCache
Дизайн, который по задумке снимает утечку: кэш живёт локально у пользователя, похожесть ищется только по его собственной истории, общего хранилища нет. Но это исследовательский прототип, а не зрелый продукт — мало независимых проверок, в боевых проектах пока не обкатан. И приватность не бесплатна: локальный кэш ловит только твои прошлые запросы, общий выигрыш на FAQ для всех пользователей теряется.Cisco / Virginia Tech / UMN → arXiv:2403.02694
Метод 3 из 4
KV-кэш без потерь
Не пересчитываем внутренние вычисления для общего начала запросов. Нативно встроено в Claude и OpenAI (и в движках вроде vLLM).
✅ Польза
- Экономия без потери качества — ответ ровно тот же, не платим за общий префикс дважды
- У нас уже есть — это prompt caching самого провайдера (Anthropic/OpenAI), безопасный вариант
🔴 Риски (у сторонних реализаций)
- Пароли и PII из выгруженного KV-кэша восстанавливают почти дословно (~100%)NDSS 2026 «Shadow in the Cache» → ndss-symposium.org
- Тайминг по попаданиям в кэш: по времени ответа видно, что префикс уже в общем кэше → пословно восстанавливают чужие и системные промпты; проверено black-box на живых онлайн-сервисах«Early Bird», IEEE TIFS → arXiv:2409.20002
Метод 4 из 4
Прокси / роутинг смешанный
Диспетчер перед всеми провайдерами: простой запрос — на модель подешевле, плюс учёт и кэш. → LiteLLM, Helicone, Portkey
✅ Польза
- Экономия деньгами: простой запрос уходит на дешёвую модель
- Единая точка учёта расходов, лимитов и кэша для всех провайдеров
🔴 Риски
- Supply-chain: у LiteLLM уже была реальная компрометация цепочки поставокразбор → Trend Micro 2026
- Все промпты в открытом виде в одной точке — логируются и кэшируютсяриски прокси → CSA Research Note
Вердикт
Экономишь токены — платишь чем-то другим
Серебряной пули нет: у каждого инструмента своя цена — за экономию платишь либо качеством, либо скоростью, либо безопасностью.