DeepSeek 大模型原理（三）

3.大模型原理

一、GPT 的命名含义

G = Generative（生成式）—— 能生成新内容
P = Pre-trained（预训练）—— 提前用海量数据训练过
T = Transformer（变换器架构）—— 具体的技术架构

所以 GPT 就是 “生成式预训练变换器” ，是大语言模型的核心技术。

二、大模型如何工作？（核心原理）

1. 基本流程：预测下一个 token

把一句话拆成一个个 token（token 不一定是完整的字，可能是词，也可能是半个字）
把 token 输入 Transformer 架构进行计算
模型预测下一个 token 可能是什么，给出多个候选
选择其中一个（不一定选概率最高的，选最高的回答每次都一样；选低一点的，回答会有随机性和创造力）
然后拿着新 token，重复这个过程，一个字一个字地“蹦”出来

这就是 自回归：用已经生成的内容，继续生成下一个内容。

2. 训练 vs 推理（两个阶段）

阶段	做什么	特点
训练	给模型海量数据，让它不断调整参数	计算量大，需要反向传播（梯度计算），适合 H100/H800 这类卡
推理	参数固定，接受输入，输出结果	计算量相对小，适合 L40 这类卡（用 H100 推理有点浪费）

三、重要概念解释

1. 上下文窗口（Context Window）

指模型一次能处理多少 token
窗口越长 → 需要的参数越多 → 计算量越大 → 算力要求越高
注意：像 KIMI 那样号称超长窗口，实际上是把前面的 token 压缩了再喂给模型，不是真的全量处理

2. 提示词（Prompt）的工作原理

把提示词放在用户问题的前面
模型根据提示词的引导，预测出不同的下一个 token → 从而改变输出结果
所以提示词会影响输出，这是它的底层原理

3. 上下文（Context）是什么？

模型本身没有记忆！
所谓的“多轮对话记忆”，是客户端或后台把你之前说的话 + 模型之前的回答，全部放到当前问题的前面，一次性喂给模型
对话轮次越多 → 放进去的 token 越多 → 算力消耗越大

四、大模型的三层能力（重点！由强到弱）

层级	能力	说明
第一层	语言理解与生成	能说人话，能听懂人话。所有大语言模型都很成熟。这是大模型最基础、最强的能力
第二层	世界知识	因为用了海量互联网数据训练，模型“压缩”了大量人类知识。不是死记硬背，而是一种模拟 / 压缩
第三层	推理能力	最弱的一层。过去需要用思维链（COT）提示词来激发。现在推理模型（如DeepSeek R1）通过强化学习把推理能力内化了

过去：语言能力 > 知识能力 > 推理能力
现在：推理能力正在快速追上（推理模型时代）

五、劣势与局限性

1. 幻觉（Hallucination）—— 最主要的问题

原因：模型是对知识的有损压缩，不是精确记忆
表现：会编造不存在的事实
解决方案：RAG（检索增强生成） + 联网搜索（目前已有）

2. 知识有限

训练数据截止到某个时间点
解决方案：联网搜索（已有）

3. 上下文窗口限制

早期问题，现在已逐步解决

到今天为止，幻觉仍然是最大问题，后面两个已有成熟的解决办法。

六、生成模型 vs 推理模型（算力分布差异）

对比项	生成模型（传统）	推理模型（如DeepSeek R1）
训练阶段算力	巨大	依然很大
推理阶段算力	很小（快）	显著增加（慢）
原因	训练时把所有能力压进参数	推理时反复思考（COT），多次调用token
本质	用训练换推理速度	用推理时的算力和时间换取更强的推理能力

新概念：TTC（Test-Time Compute） —— 推理时的计算。推理模型就是把更多算力花在了推理阶段。

snapshot

七、总结一句话

大模型本质是一个“预测下一个 token”的自回归系统。它有三层能力：语言、知识、推理（由强到弱）。最大的问题是幻觉。推理模型通过把思维链内化，并在推理时消耗更多算力，换来了更强的推理能力。

信息技术 > deepseek

#deepseek

DeepSeek 大模型的应用（四）上一篇

DeepSeek R1 详细解读（二）下一篇