DeepSeek R1 详细解读(二)
2.DeepSeek R1详细解读
一、DeepSeek 公司背景
- 成立时间:2023 年 7 月(ChatGPT 发布 8 个月后)
- 公司性质:不是小公司,而是量化巨头 “幻方” 旗下的创新型科技企业
- 老板:梁文峰(也是幻方老板)
- 算力积累:早在 2019-2020 年,幻方就拥有国内罕见的万卡级 A100 显卡(用于量化交易模型),因此 DeepSeek 很有钱、很有算力 —— 它的成功很难被小公司复制
二、模型发展时间线
| 时间 | 事件 | 特点 |
|---|---|---|
| 2024 年 5 月 | DeepSeek V2 | 非常便宜,价格是其他大模型的 1/10~1/20 |
| 2024 年 12 月 | DeepSeek V3 | 能力很强,与 GPT-4 / GPT-4o 不相上下(但仍落后 6-9 个月) |
| 2025 年 1 月 20 日 | DeepSeek R1 | 推理模型,对标 OpenAI o1(o1 于 2024 年 9 月发布)→ 差距缩短到仅 4 个月 |
关键意义:过去美国发布新模型,中国要 6-12 个月才能追上;这次 DeepSeek 只用了 4 个月就追上了最先进的推理模型。
三、推理模型 vs 生成模型(快速回顾)
- 生成模型(如 GPT-4o、DeepSeek V3):快思考,直接给答案
- 推理模型(如 DeepSeek R1、OpenAI o1):慢思考,内部进行思维链(COT)反复推演,最后输出答案。DeepSeek R1 的特色是把思考过程可视化了,非常有价值。
四、DeepSeek R1 火爆的三大原因(重点)
性能第一梯队
它是推理模型,能力直接对标 OpenAI o1,达到了世界最先进水平。开源 + 超低成本
- 模型参数开源(免费下载)
- 通过极致的系统优化,把 H800 显卡的性能压榨到极限,训练和推理成本远低于国外同类模型
- 使用了 FP8 精度等技术(详见后文)
国产自主研发
- 战略意义:不受美国限制,合规
- 对美国刺激很大:中国做出了第一梯队的模型,不再只是跟随
这三点缺一不可:如果性能不行,开源也没用;如果不开源、成本高,也不会这么火;如果不是国产,意义大打折扣。

五、技术优化亮点(通俗解释)
DeepSeek 的创新不在于发明全新算法,而是把现有技术整合起来,目标明确:降低训练成本(因为算力不如美国)。
模型层面的优化
- 混合专家(MoE) :Google 提出的技术,已有两年
- 多头潜在注意力(MLA) :DeepSeek 自研的注意力机制优化
- 强化学习:用于训练推理能力
- MTP(多 token 预测)等
系统层面的优化(更关键)
- FP8 精度:美国制裁限制了 H800 的 BF16 性能(砍了一半),但没限制 FP8。DeepSeek 用 FP8 训练,让 H800 发挥出了 H100 的能力 —— 这是神来之笔
- PTX 编程、通信优化、HAI 并行训练框架等
评价:DeepSeek 把一张卡的能力压榨到了极限,不是靠堆算力,而是靠系统优化。
六、对行业的影响
- 云服务商纷纷接入:百度、腾讯等都有自己的大模型,但也都接入了 DeepSeek
- 政府、学校、企业都在推动落地:不再是技术圈自己玩,而是产业倒逼 DeepSeek 快速落地
- 科普效应:以前不知道大模型的人,现在都知道了 DeepSeek
七、成本与“薅羊毛”
- 模型参数免费,但算力不免费(运行模型需要显卡计算)
- 官方 API 可能不赔钱,但绝大多数第三方云服务商都在赔钱(算力成本太高)
- 举例:每月 API 收入 5000 万,但每月算力成本可能高达 4.5 亿
- 所以现在用 API 相当于薅羊毛,很多服务商赔钱赚吆喝,有的已经关闭了
八、使用方式
- 直接使用:官方 App、网页版
- 调用官方 API:付费使用云服务
- 私有化部署:下载模型自己部署(需要自己的算力)
- 第三方渠道:硅基流动、国家超算平台、阿里百炼等(后台装了 DeepSeek,提供 API)
目前速度较稳定的是火山引擎(但可能随时变化)
九、满血版 vs 蒸馏版(非常重要!)
DeepSeek R1 一共发布了 7 个版本,但大家常说的“DeepSeek 能力很强”指的是:
满血版(真·DeepSeek R1)
- 参数量:671B(6710 亿参数)
- 基于 DeepSeek V3 训练出来的推理模型
- 能力最强,所有评测指标都是指这个版本
- 部署成本高:需要 H20 等显卡,一台一体机约 180-200 万元,可跑 10-20 个并发
蒸馏版(小模型)
- 从满血版里“蒸馏”出数据,去训练其他小模型(如阿里的千问、Meta 的拉玛)
- 参数规模小:1.5B、7B、8B、32B、70B 等(1.5B 的普通电脑就能跑)
- 能力远不如满血版,有损失
- 实测:拉玛 70B 还不如千问 32B 强(千问 32B 是蒸馏版里最强的)
警惕:有些厂商说“装了 DeepSeek”,实际装的是蒸馏版小模型,别被忽悠。买一体机时,不要只看参数大(70B),要看实际效果。
十、技术背后的“卡脖子”故事
- 美国限制对华出售高端显卡 H100,只卖阉割版 H800
- 阉割的主要是 BF16 精度(大模型训练常用),直接砍掉一半性能
- 但美国没想到,DeepSeek 用了 FP8 精度(这个没砍),反而让 H800 发挥出了 H100 的算力
- 结果:越卡脖子,反而逼出了创新
十一、未来展望
- DeepSeek 把这些优化技术全部开源后,国外有算力的公司(如 OpenAI、Google、Meta)很快就能学过去
- 预计 3-6 个月内,DeepSeek 现在的算力成本优势就会被国外模型追上
- 但 DeepSeek 已经证明:算力不够,优化来凑,这条路走得通
总结一句话
DeepSeek R1 是一个性能世界一流的推理模型,通过极致的系统优化(尤其是 FP8 精度)把 H800 显卡压榨到极限,实现了超低成本,并且完全开源、国产自主,因此引爆了全球 AI 圈。但要注意区分“满血版”和“蒸馏版”,别被小模型忽悠。