DeepSeek R1 详细解读(二)

2.DeepSeek R1详细解读

一、DeepSeek 公司背景

  • 成立时间:2023 年 7 月(ChatGPT 发布 8 个月后)
  • 公司性质:不是小公司,而是量化巨头 “幻方” 旗下的创新型科技企业
  • 老板:梁文峰(也是幻方老板)
  • 算力积累:早在 2019-2020 年,幻方就拥有国内罕见的万卡级 A100 显卡(用于量化交易模型),因此 DeepSeek 很有钱、很有算力 —— 它的成功很难被小公司复制

二、模型发展时间线

时间 事件 特点
2024 年 5 月 DeepSeek V2 非常便宜,价格是其他大模型的 1/10~1/20
2024 年 12 月 DeepSeek V3 能力很强,与 GPT-4 / GPT-4o 不相上下(但仍落后 6-9 个月)
2025 年 1 月 20 日 DeepSeek R1 推理模型,对标 OpenAI o1(o1 于 2024 年 9 月发布)→ 差距缩短到仅 4 个月

关键意义:过去美国发布新模型,中国要 6-12 个月才能追上;这次 DeepSeek 只用了 4 个月就追上了最先进的推理模型。


三、推理模型 vs 生成模型(快速回顾)

  • 生成模型(如 GPT-4o、DeepSeek V3):快思考,直接给答案
  • 推理模型(如 DeepSeek R1、OpenAI o1):慢思考,内部进行思维链(COT)反复推演,最后输出答案。DeepSeek R1 的特色是把思考过程可视化了,非常有价值。

四、DeepSeek R1 火爆的三大原因(重点)

  1. 性能第一梯队
    它是推理模型,能力直接对标 OpenAI o1,达到了世界最先进水平。

  2. 开源 + 超低成本

    • 模型参数开源(免费下载)
    • 通过极致的系统优化,把 H800 显卡的性能压榨到极限,训练和推理成本远低于国外同类模型
    • 使用了 FP8 精度等技术(详见后文)
  3. 国产自主研发

    • 战略意义:不受美国限制,合规
    • 对美国刺激很大:中国做出了第一梯队的模型,不再只是跟随

这三点缺一不可:如果性能不行,开源也没用;如果不开源、成本高,也不会这么火;如果不是国产,意义大打折扣。

snapshot


五、技术优化亮点(通俗解释)

DeepSeek 的创新不在于发明全新算法,而是把现有技术整合起来,目标明确:降低训练成本(因为算力不如美国)。

模型层面的优化

  • 混合专家(MoE) :Google 提出的技术,已有两年
  • 多头潜在注意力(MLA) :DeepSeek 自研的注意力机制优化
  • 强化学习:用于训练推理能力
  • MTP(多 token 预测)等

系统层面的优化(更关键)

  • FP8 精度:美国制裁限制了 H800 的 BF16 性能(砍了一半),但没限制 FP8。DeepSeek 用 FP8 训练,让 H800 发挥出了 H100 的能力 —— 这是神来之笔
  • PTX 编程通信优化HAI 并行训练框架

评价:DeepSeek 把一张卡的能力压榨到了极限,不是靠堆算力,而是靠系统优化。


六、对行业的影响

  • 云服务商纷纷接入:百度、腾讯等都有自己的大模型,但也都接入了 DeepSeek
  • 政府、学校、企业都在推动落地:不再是技术圈自己玩,而是产业倒逼 DeepSeek 快速落地
  • 科普效应:以前不知道大模型的人,现在都知道了 DeepSeek

七、成本与“薅羊毛”

  • 模型参数免费,但算力不免费(运行模型需要显卡计算)
  • 官方 API 可能不赔钱,但绝大多数第三方云服务商都在赔钱(算力成本太高)
  • 举例:每月 API 收入 5000 万,但每月算力成本可能高达 4.5 亿
  • 所以现在用 API 相当于薅羊毛,很多服务商赔钱赚吆喝,有的已经关闭了

八、使用方式

  1. 直接使用:官方 App、网页版
  2. 调用官方 API:付费使用云服务
  3. 私有化部署:下载模型自己部署(需要自己的算力)
  4. 第三方渠道:硅基流动、国家超算平台、阿里百炼等(后台装了 DeepSeek,提供 API)

目前速度较稳定的是火山引擎(但可能随时变化)


九、满血版 vs 蒸馏版(非常重要!)

DeepSeek R1 一共发布了 7 个版本,但大家常说的“DeepSeek 能力很强”指的是:

满血版(真·DeepSeek R1)

  • 参数量:671B(6710 亿参数)
  • 基于 DeepSeek V3 训练出来的推理模型
  • 能力最强,所有评测指标都是指这个版本
  • 部署成本高:需要 H20 等显卡,一台一体机约 180-200 万元,可跑 10-20 个并发

蒸馏版(小模型)

  • 从满血版里“蒸馏”出数据,去训练其他小模型(如阿里的千问、Meta 的拉玛)
  • 参数规模小:1.5B、7B、8B、32B、70B 等(1.5B 的普通电脑就能跑)
  • 能力远不如满血版,有损失
  • 实测:拉玛 70B 还不如千问 32B 强(千问 32B 是蒸馏版里最强的)

警惕:有些厂商说“装了 DeepSeek”,实际装的是蒸馏版小模型,别被忽悠。买一体机时,不要只看参数大(70B),要看实际效果。


十、技术背后的“卡脖子”故事

  • 美国限制对华出售高端显卡 H100,只卖阉割版 H800
  • 阉割的主要是 BF16 精度(大模型训练常用),直接砍掉一半性能
  • 但美国没想到,DeepSeek 用了 FP8 精度(这个没砍),反而让 H800 发挥出了 H100 的算力
  • 结果:越卡脖子,反而逼出了创新

十一、未来展望

  • DeepSeek 把这些优化技术全部开源后,国外有算力的公司(如 OpenAI、Google、Meta)很快就能学过去
  • 预计 3-6 个月内,DeepSeek 现在的算力成本优势就会被国外模型追上
  • 但 DeepSeek 已经证明:算力不够,优化来凑,这条路走得通

总结一句话

DeepSeek R1 是一个性能世界一流的推理模型,通过极致的系统优化(尤其是 FP8 精度)把 H800 显卡压榨到极限,实现了超低成本,并且完全开源、国产自主,因此引爆了全球 AI 圈。但要注意区分“满血版”和“蒸馏版”,别被小模型忽悠。