DeepSeek R1 详细解读（二）

2.DeepSeek R1详细解读

成立时间：2023 年 7 月（ChatGPT 发布 8 个月后）
公司性质：不是小公司，而是量化巨头 “幻方” 旗下的创新型科技企业
老板：梁文峰（也是幻方老板）
算力积累：早在 2019-2020 年，幻方就拥有国内罕见的万卡级 A100 显卡（用于量化交易模型），因此 DeepSeek 很有钱、很有算力 —— 它的成功很难被小公司复制

时间	事件	特点
2024 年 5 月	DeepSeek V2	非常便宜，价格是其他大模型的 1/10~1/20
2024 年 12 月	DeepSeek V3	能力很强，与 GPT-4 / GPT-4o 不相上下（但仍落后 6-9 个月）
2025 年 1 月 20 日	DeepSeek R1	推理模型，对标 OpenAI o1（o1 于 2024 年 9 月发布）→ 差距缩短到仅 4 个月

关键意义：过去美国发布新模型，中国要 6-12 个月才能追上；这次 DeepSeek 只用了 4 个月就追上了最先进的推理模型。

生成模型（如 GPT-4o、DeepSeek V3）：快思考，直接给答案
推理模型（如 DeepSeek R1、OpenAI o1）：慢思考，内部进行思维链（COT）反复推演，最后输出答案。DeepSeek R1 的特色是把思考过程可视化了，非常有价值。

性能第一梯队
它是推理模型，能力直接对标 OpenAI o1，达到了世界最先进水平。
开源 + 超低成本
- 模型参数开源（免费下载）
- 通过极致的系统优化，把 H800 显卡的性能压榨到极限，训练和推理成本远低于国外同类模型
- 使用了 FP8 精度等技术（详见后文）
国产自主研发
- 战略意义：不受美国限制，合规
- 对美国刺激很大：中国做出了第一梯队的模型，不再只是跟随

这三点缺一不可：如果性能不行，开源也没用；如果不开源、成本高，也不会这么火；如果不是国产，意义大打折扣。

snapshot

DeepSeek 的创新不在于发明全新算法，而是把现有技术整合起来，目标明确：降低训练成本（因为算力不如美国）。

FP8 精度：美国制裁限制了 H800 的 BF16 性能（砍了一半），但没限制 FP8。DeepSeek 用 FP8 训练，让 H800 发挥出了 H100 的能力 —— 这是神来之笔
PTX 编程、通信优化、HAI 并行训练框架等

评价：DeepSeek 把一张卡的能力压榨到了极限，不是靠堆算力，而是靠系统优化。

目前速度较稳定的是火山引擎（但可能随时变化）

DeepSeek R1 一共发布了 7 个版本，但大家常说的“DeepSeek 能力很强”指的是：

警惕：有些厂商说“装了 DeepSeek”，实际装的是蒸馏版小模型，别被忽悠。买一体机时，不要只看参数大（70B），要看实际效果。

DeepSeek R1 是一个性能世界一流的推理模型，通过极致的系统优化（尤其是 FP8 精度）把 H800 显卡压榨到极限，实现了超低成本，并且完全开源、国产自主，因此引爆了全球 AI 圈。但要注意区分“满血版”和“蒸馏版”，别被小模型忽悠。

信息技术 > deepseek

#deepseek