DeepSeek 人工智能概念辨析(一)
1.人工智能概念辨析
一、 核心术语与概念澄清

多模态:指处理多种数据形态,主要包括文本、图片、音频、视频四种。就像 20 年前的“多媒体”概念。
国内主流 AI 工具:DeepSeek、豆包、KIMI、腾讯元宝、智谱清言、通义千问等。
模型分类:
- 大语言模型:大模型的核心,参数巨大(数亿到数千亿)。
- 视觉/音频模型:专门处理图片、视频或音频。
- 多模态模型:统一处理语言和视觉/音频。分为混合模型(以大语言模型为基础,外挂视觉模型)和端到端模型(统一架构,不区分模块)。
- 垂类模型(行业模型) :在通用模型基础上,用行业数据微调而来。“百模大战”中,真正的通用基础模型不到 10 个,其余都是微调出来的。
二、 人工智能发展的关键脉络

早期人工智能:
- 核心:规则。方法:运算与推理。
- 局限性:难以泛化,智能水平不强,本质是自动化(RPA,机器人流程自动化)。
专家系统时代:
- 核心:知识。结构:知识库 + 推理机。
- 现代延续技术:知识图谱。
现代人工智能(机器学习) :
- 核心:学习。方法:统计学习,用数据建模。
- 早期方法(如逻辑回归、SVM)现在已很少用,因为表达能力弱。
人工神经网络与深度学习:
- 核心:复杂函数拟合。足够多的神经元可以拟合任意复杂函数。
- 重要观点:人工神经网络与人脑的共同点只有名字,机制和架构完全不同(就像 Java 与 JavaScript,或猪与荷兰猪)。
- 深度学习:解决了深度神经网络的训练收敛问题。名字的由来:为了让论文好发表,将“深度神经网络”改名为“深度学习”。
三、 关键架构演进

传统网络架构(为 Transformer 铺路) :
-
CNN(处理图像)、RNN(处理序列,如语音/文字)。 -
ResNet (残差网络) :由中国人提出,通过“残差”概念让网络深度可以变得非常深,没有它就没有后来的 Transformer。 -
Inception:由 Google 提出,核心贡献是模块化,影响了 Transformer。
-
Transformer 架构(现代大模型基石,2017 年) :
- 核心:注意力机制。论文名:《Attention is All You Need》。
- 贡献:解决了模块化堆叠和并行矩阵计算问题,使得 “大力出奇迹”(Scaling Law) 成为可能。
- 关键影响:因为需要大量并行矩阵计算,GPU(英伟达)成为核心硬件。英伟达最该感谢的是 Hinton 等人最早用游戏卡训练神经网络。
生成模型 vs. 推理模型(当前重点) :
生成模型(如 GPT-4o):
- 思维模式:快思考(直觉、直接给出答案)。
- 工作方式:直接进行“下一个 token 预测”(NTP),一次输出结果。
推理模型(如 DeepSeek-R1、OpenAI o1):
- 思维模式:慢思考(深思熟虑)。
- 工作方式:将“思维链”(COT,Chain of Thought)能力内化到模型中。它内部会生成大量中间思考过程(而非直接给用户),反复推演,最后才给出答案。
- DeepSeek 的特色:将思考过程可视化,让用户不仅看到答案,也能看到有价值的思考路径。
- 训练方法:通过强化学习,在后训练阶段用带有思维链的数据进行微调。
- 代价:推理模型消耗的算力和 token 远大于生成模型。

四、 其他重要架构
- Diffusion(扩散模型) :主要用于视觉生成,如图像(Stable Diffusion, Midjourney)和视频(Sora, 可灵)。其架构(如 DiT:Diffusion + Transformer)也在尝试用于语言模型。
总结与启示
- 智能的本质:当前 AI 展现的不一定是人类智能,可能是非人类的智能。例如,AlphaZero 不学习人类棋谱,自己左右互搏,下出的棋远超人类理解。DeepSeek-R1 Zero 的论文也展现了类似倾向。
- 能力边界:理解这些概念,才能知道大模型能做什么、不能做什么,从而对其落地应用有合理的期待和判断。
- DeepSeek 的历史意义:过去美国发布新模型后,中国需要 6-12 个月才能追上。而这次,DeepSeek 在 OpenAI 发布 o1 推理模型后,仅用 4 个月就实现了追赶,这是一个重大突破。