Demos

AI原理演示

把大模型、RAG 与向量空间的核心处理链路拆解成更容易观察和理解的可视化页面。

打开 LLM Demo 我们的产品

基础概念

RAG / 检索

Agent / 编排

Learning Flow

Demos

Interactive

Demos

把抽象原理变成可操作演示

围绕大模型、RAG、Agent 与平台工程，做成可点、可看、可验证的交互式学习入口。

Demo Coverage

覆盖基础概念、检索、编排与工程平台

Learning Path

4 groups

基础概念 / RAG / Agent / 工程平台

学习路径

按主题理解这些演示，会比按时间顺序逐个点开更容易形成整体认识。

建议顺序

Token / 上下文

RAG / 检索

Agent / 编排

平台 / 路由

先建立直觉

先看 token、上下文和提示词结构，建立模型处理输入的基本感受。

再理解检索

再看向量、分块、重排和引用来源，理解知识库为什么能回答问题。

最后看系统化交付

最后进入 Agent、模型路由、安全边界与权限分层，理解工程落地。

先看概念

入门

Input -> Tokenize -> Count -> Process

什么是 Token 🔥

用动画把一句话拆成模型真正处理的 token，理解 token 不是“一个字=一个 token”。

适合谁看: 适合产品、销售、客户沟通
你会学到: 你会学到 token 为什么影响计费、速度和上下文长度。

打开演示

再看检索

入门

Query -> Retrieve -> Rerank -> Context -> Generate

RAG 检索增强生成 🔥

演示查询改写、召回、重排、拼接上下文与最终生成的完整流程。

适合谁看: 适合知识库客户、售前沟通
你会学到: 你会学到 RAG 为什么不是直接问模型，而是先检索再回答。

打开演示

最后看编排

进阶

Task -> Tool -> Result -> Next Action

Agent 工具调用演示

展示 Agent 如何理解任务、挑选工具、读取结果并决定下一步，而不是一次性给答案。

适合谁看: 适合流程自动化、Agent 项目客户
你会学到: 你会学到 Agent 为什么要选工具、读结果、再决定下一步。

打开演示

全部演示

按主题继续浏览

如果你已经知道自己关注哪条线，可以直接按主题进入对应分组。

基础概念

先建立对 token、上下文、提示词和采样的直觉，再看工程演示会更顺。

Tokenize -> Embed -> Attend -> Decode -> Answer

入门01

LLM 问答过程动画 🔥

把提问、编码、推理、解码和输出的链路拆成可观察节点。

重点：Transformer 处理链路

适合谁看

适合产品、销售、客户教育

业务价值

适合向非技术用户解释模型为什么这样工作。

打开演示

Input -> Tokenize -> Count -> Process

入门02

什么是 Token 🔥

用动画把一句话拆成模型真正处理的 token，理解 token 不是“一个字=一个 token”。

重点：切分、计量与生成单位

适合谁看

适合产品、销售、客户沟通

业务价值

适合解释模型为什么会“吃上下文”、为什么成本会上升。

打开演示

System + History + User + Output <= Context Window

入门03

LLM 上下文长度

通过滑动窗口展示模型一次真正能“看到”的 token 范围，以及为什么旧内容会被截断。

重点：可见窗口与截断直觉

适合谁看

适合产品、实施、解决方案

业务价值

适合解释长对话、长文档为什么需要裁剪、摘要或检索。

打开演示

System + Few-shot + User -> Final Prompt

入门04

Prompt 结构演示

展示 system、user、assistant 示例如何被拼成最终输入，理解“提示词”不是单独一句话。

重点：消息结构与角色分工

适合谁看

适合产品、销售、客户教育

业务价值

适合向非技术用户解释模型为什么这样工作。

打开演示

Tokens -> Attention Scores -> Weighted Sum -> Contextual Output

进阶05

Transformer 原理演示 🔥

用可视化方式展示 token 如何彼此关注、加权汇聚并形成新的上下文表示。

重点：自注意力与上下文建模

适合谁看

适合技术客户、开发者、方案架构师

业务价值

适合解释模型不是“背答案”，而是在做动态相关性计算。

打开演示

Low Temp -> Stable | High Temp -> Diverse

入门06

Temperature 温度演示

用同一个问题对比低温和高温采样，理解模型为什么会更稳或更发散。

重点：随机性与稳定性

适合谁看

适合产品、销售、客户教育

业务价值

适合向非技术用户解释模型为什么这样工作。

打开演示

History + Latest Input -> Context Window

入门07

多轮对话记忆

演示历史消息如何逐轮进入上下文，以及为什么对话越长越需要摘要和裁剪。

重点：历史消息与上下文占用

适合谁看

适合产品、销售、客户教育

业务价值

适合向非技术用户解释模型为什么这样工作。

打开演示

Long History -> Summary Memory -> Continue

入门08

多轮对话摘要压缩

演示长对话为什么不能原样一直保留，以及系统如何把历史压成可复用摘要。

重点：记忆压缩与上下文节省

适合谁看

适合产品、销售、客户教育

业务价值

适合向非技术用户解释模型为什么这样工作。

打开演示

RAG / 检索

理解向量、召回、分块、重排和阈值，才能看懂知识库为什么有时答得准、有时会偏。

Query -> Retrieve -> Rerank -> Context -> Generate

入门01

RAG 检索增强生成 🔥

演示查询改写、召回、重排、拼接上下文与最终生成的完整流程。

重点：检索链路

适合谁看

适合知识库客户、售前沟通

业务价值

适合解释企业知识库、制度问答、内部搜索的落地方式。

打开演示

Text -> Vector -> Similarity -> Clusters

入门02

Embedding 向量空间

通过二维示意和相似度说明文本如何落入向量空间。

重点：向量空间直觉

适合谁看

适合初次接触知识库的用户

业务价值

适合解释语义检索为什么不等于关键词搜索。

打开演示

Document -> Chunk -> Embed -> Retrieve

进阶03

RAG 分块 Chunking 演示

对比大块、适中、小块切分对召回命中的影响，理解为什么 chunk 大小会改变答案质量。

重点：切块粒度与召回质量

适合谁看

适合知识库、RAG、搜索项目

业务价值

适合解释知识库项目为什么需要检索、重排和阈值。

打开演示

Retrieve -> Score -> Rerank -> Keep Top Results

进阶04

RAG 重排 Rerank

展示召回结果为什么还要重排，以及最终真正送进模型的片段通常只有少数几条。

重点：召回不等于最终采用

适合谁看

适合知识库项目负责人、实施团队

业务价值

适合解释知识库“答得不稳”的根因常常在检索链路。

打开演示

Vector Similarity >= Threshold ?

进阶05

Embedding 相似度阈值 🔥

通过相似度阈值控制展示为什么“有点像”不等于应该被采纳。

重点：相似度阈值与误召回

适合谁看

适合实施、调优、知识库项目组

业务价值

适合解释为什么知识库不是“召回越多越好”。

打开演示

Document -> Embedding -> Vector Index -> ANN Search -> Metadata Hit

进阶06

向量数据库原理与存储

展示文本如何被写入向量库、建立索引，并在近邻检索时返回最相关的记录。

重点：向量写入、索引结构与存储记录

适合谁看

适合技术客户、开发者

业务价值

适合解释知识库底层为什么需要专门的向量存储层。

打开演示

Question -> Retrieve -> Answer + Citations

入门07

RAG 引用来源

展示答案为什么需要带出处、片段编号和引用范围，帮助用户判断内容可信度。

重点：答案可信度与来源追踪

适合谁看

适合合规、研究、政务类客户

业务价值

适合解释可信问答和审计型知识系统的必要性。

打开演示

Agent / 编排

关注技能路由、工具调用、结构化输出和安全边界，理解模型如何接近真实系统。

Task -> Skill Match -> Tool Plan -> Structured Output

进阶01

什么是 Skills

把 Skills 理解成给模型的能力模块，演示请求如何被技能路由并转成稳定执行过程。

重点：能力路由与执行规范

适合谁看

适合 Agent、系统集成、流程自动化

业务价值

适合解释从“会回答”到“会执行”的差异。

打开演示

Task -> Tool -> Result -> Next Action

进阶02

Agent 工具调用演示

展示 Agent 如何理解任务、挑选工具、读取结果并决定下一步，而不是一次性给答案。

重点：工具使用闭环

适合谁看

适合流程自动化、Agent 项目客户

业务价值

适合解释 Agent 和普通问答机器人的本质区别。

打开演示

Prompt -> Schema Match -> JSON Arguments

进阶03

Function Calling / JSON 输出

展示模型如何把自然语言请求转成结构化参数，而不是只返回一段描述文字。

重点：结构化输出与参数映射

适合谁看

适合业务系统集成客户

业务价值

适合解释模型接业务系统、表单和工单系统的方式。

打开演示

System Rules > User Injection > Guardrails

工程04

Prompt 注入 / 安全边界

说明为什么 system 指令、权限隔离和工具边界不能只靠模型“自觉遵守”。

重点：安全约束与越权风险

适合谁看

适合安全、合规、平台负责人

业务价值

适合解释企业级 AI 为什么一定要做安全约束。

打开演示

Request + Role -> Allowed Tools -> Result

进阶05

权限分层调用

展示同一个请求在普通用户、审核员和管理员权限下，会进入完全不同的工具链路。

重点：权限边界与工具分流

适合谁看

适合 Agent、系统集成、流程自动化

业务价值

适合解释从“会回答”到“会执行”的差异。

打开演示

工程平台

看平台如何处理模型路由、资源分配和质量成本平衡。

Teacher Output -> Distill -> Student Model

工程01

大模型蒸馏

演示 Teacher 模型如何把能力迁移到更小的 Student 模型，以换取更低成本和更快响应。

重点：能力迁移、成本压缩与效果平衡

适合谁看

适合模型团队、成本敏感场景

业务价值

适合解释为什么高频任务不一定一直调用最大模型。

打开演示

Base Model + Domain Data -> Fine-tune -> Specialized Model

工程02

大模型微调

展示通用模型如何通过业务数据微调，逐步适应特定领域语气、术语和输出格式。

重点：任务对齐、参数更新与效果提升

适合谁看

适合模型团队、行业产品负责人

业务价值

适合解释什么时候该补知识，什么时候该改模型行为。

打开演示

Base Model -> LoRA Adapters | Full Parameter Update

工程03

LoRA / 全量微调对比

对比 LoRA 和全量微调在显存占用、训练成本、上线灵活性和效果提升上的差异。

重点：参数更新范围与工程取舍

适合谁看

适合训练方案决策人

业务价值

适合解释模型定制化为什么不仅是效果问题，也是工程成本问题。

打开演示

Task -> Route Policy -> Best Model

工程04

模型路由

展示同一个请求为什么会按成本、速度和质量要求被分发给不同模型。

重点：路由策略与成本质量平衡

适合谁看

适合平台负责人、成本控制场景

业务价值

适合解释成本、速度、质量三者如何在平台层平衡。

打开演示

Draft Answer -> Verify -> Confidence Gate

工程05

模型幻觉与校验

通过对比“直接回答”和“经过校验的回答”，直观看到为什么系统需要事实校验与置信控制。

重点：幻觉风险与事实校验

适合谁看

适合平台负责人、技术客户、工程团队

业务价值

适合解释为什么企业级 AI 需要平台化能力。

打开演示

Concepts

基础概念

先理解这些概念，再去看动画，会更容易把模型处理过程和工程限制对应起来。

什么是 Token

Token 是模型处理文本时使用的最小计量单位，不完全等于“一个汉字”或“一个英文单词”。模型会先把输入拆成 token，再进行编码、注意力计算和生成。英文里常常一个词会拆成多个 token，中文里短句也可能按词块或子词切分。理解 token，有助于理解计费、速度和上下文限制。

LLM 上下文长度怎么理解

上下文长度可以理解为模型当前一次能“看见”的总 token 数量，里面同时包含系统提示词、历史对话、用户新输入以及模型生成内容。它不是只算你的提问文本。上下文越长，模型能参考的信息越多，但成本、延迟和注意力分配压力也会增加。

什么是 Skills

Skills 可以理解为给模型预先准备好的能力模块或工作说明。它不只是知识说明，更像一套可复用的操作规范，告诉模型在某类任务里该怎样判断、调用什么工具、遵循什么输出格式。Skills 做得好，模型表现会更稳定，也更接近真正可交付的系统。