DeepSeek 大模型原理(三)
3.大模型原理
一、GPT 的命名含义
- G = Generative(生成式)—— 能生成新内容
- P = Pre-trained(预训练)—— 提前用海量数据训练过
- T = Transformer(变换器架构)—— 具体的技术架构
所以 GPT 就是 “生成式预训练变换器” ,是大语言模型的核心技术。
二、大模型如何工作?(核心原理)
1. 基本流程:预测下一个 token
- 把一句话拆成一个个 token(token 不一定是完整的字,可能是词,也可能是半个字)
- 把 token 输入 Transformer 架构进行计算
- 模型预测下一个 token 可能是什么,给出多个候选
- 选择其中一个(不一定选概率最高的,选最高的回答每次都一样;选低一点的,回答会有随机性和创造力)
- 然后拿着新 token,重复这个过程,一个字一个字地“蹦”出来
这就是 自回归:用已经生成的内容,继续生成下一个内容。
2. 训练 vs 推理(两个阶段)
| 阶段 | 做什么 | 特点 |
|---|---|---|
| 训练 | 给模型海量数据,让它不断调整参数 | 计算量大,需要反向传播(梯度计算),适合 H100/H800 这类卡 |
| 推理 | 参数固定,接受输入,输出结果 | 计算量相对小,适合 L40 这类卡(用 H100 推理有点浪费) |
三、重要概念解释
1. 上下文窗口(Context Window)
- 指模型一次能处理多少 token
- 窗口越长 → 需要的参数越多 → 计算量越大 → 算力要求越高
- 注意:像 KIMI 那样号称超长窗口,实际上是把前面的 token 压缩了再喂给模型,不是真的全量处理
2. 提示词(Prompt)的工作原理
- 把提示词放在用户问题的前面
- 模型根据提示词的引导,预测出不同的下一个 token → 从而改变输出结果
- 所以提示词会影响输出,这是它的底层原理
3. 上下文(Context)是什么?
- 模型本身没有记忆!
- 所谓的“多轮对话记忆”,是客户端或后台把你之前说的话 + 模型之前的回答,全部放到当前问题的前面,一次性喂给模型
- 对话轮次越多 → 放进去的 token 越多 → 算力消耗越大
四、大模型的三层能力(重点!由强到弱)
| 层级 | 能力 | 说明 |
|---|---|---|
| 第一层 | 语言理解与生成 | 能说人话,能听懂人话。所有大语言模型都很成熟。这是大模型最基础、最强的能力 |
| 第二层 | 世界知识 | 因为用了海量互联网数据训练,模型“压缩”了大量人类知识。不是死记硬背,而是一种模拟 / 压缩 |
| 第三层 | 推理能力 | 最弱的一层。过去需要用思维链(COT)提示词来激发。现在推理模型(如DeepSeek R1)通过强化学习把推理能力内化了 |
过去:语言能力 > 知识能力 > 推理能力
现在:推理能力正在快速追上(推理模型时代)
五、劣势与局限性
1. 幻觉(Hallucination)—— 最主要的问题
- 原因:模型是对知识的有损压缩,不是精确记忆
- 表现:会编造不存在的事实
- 解决方案:RAG(检索增强生成) + 联网搜索(目前已有)
2. 知识有限
- 训练数据截止到某个时间点
- 解决方案:联网搜索(已有)
3. 上下文窗口限制
- 早期问题,现在已逐步解决
到今天为止,幻觉仍然是最大问题,后面两个已有成熟的解决办法。
六、生成模型 vs 推理模型(算力分布差异)
| 对比项 | 生成模型(传统) | 推理模型(如DeepSeek R1) |
|---|---|---|
| 训练阶段算力 | 巨大 | 依然很大 |
| 推理阶段算力 | 很小(快) | 显著增加(慢) |
| 原因 | 训练时把所有能力压进参数 | 推理时反复思考(COT),多次调用token |
| 本质 | 用训练换推理速度 | 用推理时的算力和时间换取更强的推理能力 |
新概念:TTC(Test-Time Compute) —— 推理时的计算。推理模型就是把更多算力花在了推理阶段。

七、总结一句话
大模型本质是一个“预测下一个 token”的自回归系统。它有三层能力:语言、知识、推理(由强到弱)。最大的问题是幻觉。推理模型通过把思维链内化,并在推理时消耗更多算力,换来了更强的推理能力。