DeepSeek 人工智能概念辨析（一）

1.人工智能概念辨析

一、核心术语与概念澄清

snapshot

多模态：指处理多种数据形态，主要包括文本、图片、音频、视频四种。就像 20 年前的“多媒体”概念。
国内主流 AI 工具：DeepSeek、豆包、KIMI、腾讯元宝、智谱清言、通义千问等。
模型分类：
- 大语言模型：大模型的核心，参数巨大（数亿到数千亿）。
- 视觉/音频模型：专门处理图片、视频或音频。
- 多模态模型：统一处理语言和视觉/音频。分为混合模型（以大语言模型为基础，外挂视觉模型）和端到端模型（统一架构，不区分模块）。
- 垂类模型（行业模型） ：在通用模型基础上，用行业数据微调而来。“百模大战”中，真正的通用基础模型不到 10 个，其余都是微调出来的。

二、人工智能发展的关键脉络

snapshot

早期人工智能：
- 核心：规则。方法：运算与推理。
- 局限性：难以泛化，智能水平不强，本质是自动化（RPA，机器人流程自动化）。
专家系统时代：
- 核心：知识。结构：知识库 + 推理机。
- 现代延续技术：知识图谱。
现代人工智能（机器学习） ：
- 核心：学习。方法：统计学习，用数据建模。
- 早期方法（如逻辑回归、SVM）现在已很少用，因为表达能力弱。
人工神经网络与深度学习：
- 核心：复杂函数拟合。足够多的神经元可以拟合任意复杂函数。
- 重要观点：人工神经网络与人脑的共同点只有名字，机制和架构完全不同（就像 Java 与 JavaScript，或猪与荷兰猪）。
- 深度学习：解决了深度神经网络的训练收敛问题。名字的由来：为了让论文好发表，将“深度神经网络”改名为“深度学习”。

三、关键架构演进

snapshot

传统网络架构（为 Transformer 铺路） ：
- CNN（处理图像）、RNN（处理序列，如语音/文字）。
- ResNet （残差网络） ：由中国人提出，通过“残差”概念让网络深度可以变得非常深，没有它就没有后来的 Transformer。
- Inception：由 Google 提出，核心贡献是模块化，影响了 Transformer。
Transformer 架构（现代大模型基石，2017 年） ：
- 核心：注意力机制。论文名：《Attention is All You Need》。
- 贡献：解决了模块化堆叠和并行矩阵计算问题，使得 “大力出奇迹”（Scaling Law） 成为可能。
- 关键影响：因为需要大量并行矩阵计算，GPU（英伟达）成为核心硬件。英伟达最该感谢的是 Hinton 等人最早用游戏卡训练神经网络。
生成模型 vs. 推理模型（当前重点） ：
- 生成模型（如 GPT-4o）：
  - 思维模式：快思考（直觉、直接给出答案）。
  - 工作方式：直接进行“下一个 token 预测”（NTP），一次输出结果。
- 推理模型（如 DeepSeek-R1、OpenAI o1）：
  - 思维模式：慢思考（深思熟虑）。
  - 工作方式：将“思维链”（COT，Chain of Thought）能力内化到模型中。它内部会生成大量中间思考过程（而非直接给用户），反复推演，最后才给出答案。
  - DeepSeek 的特色：将思考过程可视化，让用户不仅看到答案，也能看到有价值的思考路径。
  - 训练方法：通过强化学习，在后训练阶段用带有思维链的数据进行微调。
  - 代价：推理模型消耗的算力和 token 远大于生成模型。

四、其他重要架构

Diffusion（扩散模型） ：主要用于视觉生成，如图像（Stable Diffusion, Midjourney）和视频（Sora, 可灵）。其架构（如 DiT：Diffusion + Transformer）也在尝试用于语言模型。

总结与启示

智能的本质：当前 AI 展现的不一定是人类智能，可能是非人类的智能。例如，AlphaZero 不学习人类棋谱，自己左右互搏，下出的棋远超人类理解。DeepSeek-R1 Zero 的论文也展现了类似倾向。
能力边界：理解这些概念，才能知道大模型能做什么、不能做什么，从而对其落地应用有合理的期待和判断。
DeepSeek 的历史意义：过去美国发布新模型后，中国需要 6-12 个月才能追上。而这次，DeepSeek 在 OpenAI 发布 o1 推理模型后，仅用 4 个月就实现了追赶，这是一个重大突破。

信息技术 > deepseek

#deepseek

DeepSeek R1 详细解读（二）上一篇

Hexo 部署（三）下一篇

DeepSeek 人工智能概念辨析（一）

1.人工智能概念辨析

一、 核心术语与概念澄清

二、 人工智能发展的关键脉络​​

三、 关键架构演进

四、 其他重要架构

总结与启示

一、核心术语与概念澄清

二、人工智能发展的关键脉络

三、关键架构演进

四、其他重要架构