LLM 问答过程动画
把提问、编码、推理、解码和输出的链路拆成可观察节点。
重点:Transformer 处理链路
打开演示Interactive Demos
把大模型、RAG 与向量空间的核心处理链路拆解成更容易观察和理解的可视化页面。
把提问、编码、推理、解码和输出的链路拆成可观察节点。
重点:Transformer 处理链路
打开演示演示查询改写、召回、重排、拼接上下文与最终生成的完整流程。
重点:检索链路
打开演示用动画把一句话拆成模型真正处理的 token,理解 token 不是“一个字=一个 token”。
重点:切分、计量与生成单位
打开演示通过滑动窗口展示模型一次真正能“看到”的 token 范围,以及为什么旧内容会被截断。
重点:可见窗口与截断直觉
打开演示把 Skills 理解成给模型的能力模块,演示请求如何被技能路由并转成稳定执行过程。
重点:能力路由与执行规范
打开演示展示 system、user、assistant 示例如何被拼成最终输入,理解“提示词”不是单独一句话。
重点:消息结构与角色分工
打开演示用同一个问题对比低温和高温采样,理解模型为什么会更稳或更发散。
重点:随机性与稳定性
打开演示对比大块、适中、小块切分对召回命中的影响,理解为什么 chunk 大小会改变答案质量。
重点:切块粒度与召回质量
打开演示展示 Agent 如何理解任务、挑选工具、读取结果并决定下一步,而不是一次性给答案。
重点:工具使用闭环
打开演示Concepts
先理解这些概念,再去看动画,会更容易把模型处理过程和工程限制对应起来。
Token 是模型处理文本时使用的最小计量单位,不完全等于“一个汉字”或“一个英文单词”。模型会先把输入拆成 token,再进行编码、注意力计算和生成。英文里常常一个词会拆成多个 token,中文里短句也可能按词块或子词切分。理解 token,有助于理解计费、速度和上下文限制。
上下文长度可以理解为模型当前一次能“看见”的总 token 数量,里面同时包含系统提示词、历史对话、用户新输入以及模型生成内容。它不是只算你的提问文本。上下文越长,模型能参考的信息越多,但成本、延迟和注意力分配压力也会增加。
Skills 可以理解为给模型预先准备好的能力模块或工作说明。它不只是知识说明,更像一套可复用的操作规范,告诉模型在某类任务里该怎样判断、调用什么工具、遵循什么输出格式。Skills 做得好,模型表现会更稳定,也更接近真正可交付的系统。