最新文章

[LLM] Paged Cache策略

Paged Cache策略Paged Cache(分页缓存)如果说 Dynamic Cache 是最容易想到的实现方式,那么 Paged Cache 就是目前业界最主流的实现方式之一。它最早由 ...

RoLingG 其他 2026-06-30

[LLM] KV Cache的多种策略

KV Cache的多种策略在 粗浅理解大模型 KV Cache 中,我们已经了解了 KV Cache 的作用:缓存历史 Token 的 Key 和 Value,避免每次生成新 Token 时重新...

RoLingG 其他 2026-06-30

[LLM] 粗浅理解大模型 Promot Cache

粗浅理解大模型 Promot Cache读完之前的 粗浅理解大模型 KV Cache,可能会有个误解,以为大模型定价的 输入(命中缓存)Token 、输入(未命中缓存)Token 、输出 Tok...

RoLingG 其他 2026-06-30

[LLM] 大模型处理Token流程

大模型处理Token流程Token │ ▼ Embedding │ ▼ Layer1 │ ▼ Layer2 │ ▼ ... │ ▼ LayerNEmbed...

RoLingG 其他 2026-06-30

[LLM] 粗浅理解大模型 KV Cache

粗浅理解大模型 KV Cache我们先来了解一下大模型对于 Token 的处理流程(学习过 RAG 开发的应该大概知道这个处理流程):Token │ ▼ Embedding // ...

RoLingG 其他 2026-06-30