万字长文解读 DeepSeek-R1 论文

yangyidba 2025-03-06

论文分为 4 部分摘要，引言，方法，讨论。重点关注引言，方法两部分。

本论文的核心观点: 探索 LLMs 在没有任何监督数据的情况下发展推理能力的潜力，专注于它们通过纯RL过程的自我进化。

一摘要

DeepSeek 推出第一代推理模型 DeepSeek-R1-Zero和DeepSeek-R1，以及衍生的蒸馏模型 qwen，llma 等。

DeepSeek-R1-Zero是一个通过大规模强化学习（RL）训练的模型，没有经过监督式微调（SFT）作为初步步骤，展示了卓越的推理能力。通过强化学习，DeepSeek-R1-Zero自然地展现了许多强大而有趣的推理行为。当然，也面临一些问题: 如可读性差和语言混乱。

DeepSeek-R1，它在强化学习之前采用了多阶段训练和冷启动数据。解决 DeepSeek-R1-Zero 出现的可读性差和语言混乱的问题。

DeepSeek-R1在推理任务上的表现与OpenAI-o1-1217相当。为了支持研究社区，DeepSeek 开源了DeepSeek-R1-Zero、DeepSeek-R1以及从DeepSeek-R1蒸馏出的六个密集模型（1.5B、7B、8B、14B、32B、70B），这些模型基于Qwen和Llama。

与其他大模型的性能对比排名如下:

二引言

后训练 (post-training) 已成为大模型完整训练流程中的重要组成部分。研究表明，这一阶段能够在推理任务上提升模型准确性，使其符合社会价值观并适应用户偏好，同时所需的计算资源相较于预训练(pre-training)较少。在推理能力的研究背景下，OpenAI 的 o1 系列模型率先通过CoT的长度引入了推断时扩展(inference-time scaling)技术，这一方法在诸如数学、编程、科学推理等任务上取得了显著进展。然而，有效的测试时扩展 (test-time scaling) 依然是研究界尚未解决的开放性问题。

后训练能够提升大模型的准确性，耗费计算资源少，性价比高。
O1 推理大模型 使用的 推断时扩展(inference-time scaling)技术在推理方面取得长足进步。
测试时扩展 (test-time scaling) 依然是研究界尚未解决的开放性问题。
复制

推理阶段扩展的一种常见做法就是改进提示工程（prompt engineering）。
其中的经典例子便是链式思考（Chain-of-Thought, CoT）提示
简单说，就是在输入提示中加入像“分步思考”或“一步一步想”等提示，
引导模型产生中间推理步骤，而不是直接给出最终答案。
这样往往（但并不总是）能在更复杂的问题上得到更准确的结果。
（但对于诸如“中国的首都是哪里”之类的简单问题，就没必要这样做——这也再次印
证了“用对模型、用对场景”这一原则。）
优点: 推理能力强，准确度高， 缺点: 费时，耗费资源(多轮计算)
复制

一些先前的研究探索了不同的解决方案，包括基于过程的奖励模型、强化学习以及搜索算法，如蒙特卡罗树搜索和束搜索。然而，这些方法都未能达到与 OpenAI 的 o1 系列模型在通用推理能力上的同等水平。

DeepSeek首次尝试使用纯强化学习来提升语言模型的推理能力，旨在探索大语言模型在没有任何监督数据的情况下开发推理能力的潜力，重点关注其通过纯 RL 流程实现的自我演化。

具体来说，DeepSeek使用 DeepSeek-V3-Base作为基础模型，并采用 GRPO(组相对策略优化)强化学习框架来提升模型在推理任务中的性能。

在训练过程中，DeepSeek-R1-Zero 自然地展现出许多强大而有趣的推理行为。经过数千步强化学习后，DeepSeek-R1-Zero 在推理基准测试中的表现大幅提升。例如，在 AIME 2024 基准测试中，pass@1得分从15.6% 提升至 71.0%，并在使用多数投票法后进一步提升至 86.7%，达到 OpenAI-o1-0912 的性能水平。

然而，DeepSeek-R1-Zero 也面临着可读性差和语言混杂等问题。为了解决这些问题并进一步提升推理性能，DeepSeek引入了 DeepSeek-R1。该模型在强化学习之前加入了少量冷启动数据和多阶段训练管道。

具体而言，DeepSeek首先收集了数千条冷启动数据对 DeepSeek-V3-Base 模型进行微调，随后与 DeepSeek-R1-Zero 类似，执行以推理为导向的强化学习。在强化学习过程接近收敛时，通过在 RL 检查点上进行拒绝采样，结合 DeepSeek-V3 的监督数据（包括写作、事实问答、以及自我认知等领域），生成新的SFT数据并重新训练模型。在微调完成后，该检查点继续进行强化学习，以涵盖所有场景的prompt。经过这些步骤后，得到了名为 DeepSeek-R1 的检查点，其在推理任务上的表现与 OpenAI-o1-1217 相当。

DeepSeek进一步探索了将 DeepSeek-R1 的能力蒸馏到小型密集模型的可能性。以 Qwen2.5-32B作为基础模型，直接从 DeepSeek-R1 进行蒸馏的效果优于在该模型上应用强化学习的结果。这表明，基础模型中发现的推理模式对于提升推理能力至关重要。

三模型训练方法

AHA 时刻: 以往的研究通常依赖大量监督数据来提升模型性能。DeepSeek证明了即使不使用监督微调作为冷启动，通过大规模强化学习依然可以显著提升模型的推理能力。

1. DeepSeek 训练流程概览

DeepSeek 在 R1 技术报告中三个推理模型的开发流程示意图。

DeepSeek-R1-Zero
该模型基于 DeepSeek 在 2024 年 12 月发布的 671B 规模预训练基础模型 DeepSeek-V3。团队对其进行强化学习（RL）训练，并使用了两类奖励作为回报信号。由于没有进行监督微调（SFT），也就是常见“RLHF”流程中的 SFT 步骤被跳过，所以他们把这称为“冷启动”的方式（Cold Start）。
DeepSeek-R1
这是 DeepSeek 的主力推理模型，也是在 DeepSeek-R1-Zero 的基础上进一步引入额外的 SFT 阶段与更多轮的 RL 训练而成，性能优于“冷启动”的 R1-Zero。
DeepSeek-R1-Distill
就是所谓的蒸馏模型，用前述训练过程中的 SFT 数据来微调了 Qwen 和 Llama 等较小模型，以提升这些模型的推理能力。虽然他们把这个过程称为“蒸馏”，但并不是传统意义上的知识蒸馏，更像是用大模型的输出数据去监督微调（SFT）小模型（包括 Llama 8B 和 70B，以及 Qwen 1.5B–30B）。

2. DeepSeek-R1-Zero：在基础模型上的强化学习

2.1 强化学习算法

为了降低强化学习的训练成本，DeepSeek采用了群相对策略优化 (GRPO)。这种方法放弃了通常与策略模型大小相同的评价模型，而是通过群体得分来估计基线。具体而言，对于每个问题，GRPO 从旧策略中采样一组输出，然后通过最大化目标来优化策略模型。

GRPO 和传统 PPO 的差异:

通俗的例子解释 GRPO 的逻辑

例 1：多兵种联合军演

▸ 传统方式：各兵种单独训练后简单合练

▸ GRPO策略：

• 将部队分为情报/突击/支援组

• 组内：情报组比拼侦察准确率

• 组间：突击组与支援组协同评分

→ 实战演习胜率提升55%

例2：动态定价系统
• 旧方法：全局统一调价策略
• GRPO策略：

按商品类别分组（日用品/奢侈品）
组内计算价格弹性敏感度
跨组协调避免价格战

→ 利润率提升23%，库存周转加快

2.2 奖励建模

奖励是训练信号的来源，决定了强化学习的优化方向。为了训练 DeepSeek-R1-Zero，DeepSeek 采用了基于规则的奖励系统，该系统主要包括两种类型的奖励：

准确性奖励：准确性奖励模型用于评估模型响应是否正确。例如，对于具有确定性结果的数学问题，模型需要在指定格式（例如，在一个框内）中提供最终答案，从而实现基于规则的正确性验证。同样地，对于编程问题（如 LeetCode 题目），可以使用编译器基于预定义的测试用例生成反馈。

格式奖励：格式奖励模型要求模型将推理过程包含在<think>和</think>标签之间，<answer>答案</answer>

2.3 训练模板

为了训练 DeepSeek-R1-Zero，首先设计了一个简单的模板，引导基础模型遵循指定的指令。如表 1 所示，

该模板要求 DeepSeek-R1-Zero 先生成推理过程，然后给出最终答案。通过有意将约束限制在这一结构化格式内，避免内容上的特定偏向（例如，要求反思性推理或推广特定问题解决策略), 以便准确观察模型在强化学习过程中的自然发展。

2.4 性能表现、自我演化过程与“顿悟时刻”

1. 性能表现

此外，通过多数投票法，DeepSeek-R1-Zero 的性能可以进一步提升。例如，在 AIME 基准测试中，应用多数投票后，DeepSeek-R1-Zero 的性能从 71.0% 提升至 86.7%，超越了 OpenAI-o1-0912 的表现。DeepSeek-R1-Zero 在有无多数投票的情况下都能取得竞争性表现，这一能力彰显了其强大的基础能力以及在推理任务中进一步发展的潜力。

2. 自我演化过程

DeepSeek-R1-Zero 的自我演化过程展示了强化学习如何推动模型自主提升推理能力的过程。通过直接从基础模型开始进行强化学习训练，能够在没有监督微调阶段影响的情况下，密切观察模型的进展。

此方法提供了模型随时间演化的清晰视图，特别是在其处理复杂推理任务能力方面的提升。这种观察方式有利于更全面地理解模型在强化学习过程中的自然发展轨迹和性能改进机制。

如图 3 所示，DeepSeek-R1-Zero 的“思考时间”在整个训练过程中持续改善。这种改善并非外部调整的结果，而是模型内部能力的自然发展。通过延长测试时的计算时间，DeepSeek-R1-Zero 自主获得了处理越来越复杂推理任务的能力。这些计算过程涵盖了从生成数百到数千个推理标记的范围，使模型能够更深入地探索和完善其思考过程。

在自我演化过程中，随着测试时计算量的增加，模型逐渐表现出复杂的行为。例如，模型会进行反思——重新审视并评估之前的步骤；此外，模型还会自发地探索不同的解决方案。这些行为并非通过显式编程实现，而是在模型与强化学习环境交互中自然产生的。这种自发性发展大大增强了 DeepSeek-R1-Zero 的推理能力，使其能够更高效、更准确地处理更具挑战性的任务。

3. 顿悟时刻” -AHA moment

如表 3 所示，“顿悟时刻”出现在模型的某个中间版本。在此阶段，DeepSeek-R1-Zero 学会了通过重新评估其初始方法，为问题分配更多的思考时间。这一行为不仅展示了模型日益增长的推理能力，也说明了强化学习如何能够产生意想不到的复杂结果。

“顿悟时刻”不仅是模型的顿悟，也是观察其行为的研究人员的顿悟。它突显了强化学习的力量与美妙之处：我们无需显式地教导模型如何解决问题，只需为其提供适当的激励，就能自主发展出高级的解决策略。

强化学习具备解锁人工系统新智能水平的潜力，为未来更多自主且适应性强的模型铺平了道路。这一现象为推进 AI 系统的自主性和智能化提供了宝贵的启示。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

4. DeepSeek-R1-Zero 的局限性

虽然 DeepSeek-R1-Zero 展示了强大的推理能力，并能自主发展出意想不到且强大的推理行为，但仍面临一些问题。例如，DeepSeek-R1-Zero 在可读性和语言混杂等方面存在挑战。为了让推理过程更加易读并与研究社区共享，DeepSeek 开发了 DeepSeek-R1，这种方法结合了具有用户友好特性的冷启动数据和强化学习。

3. DeepSeek-R1：具有冷启动的强化学习

如上图所示，DeepSeek 团队先用 R1-Zero 生成了他们称作“冷启动”的 SFT 数据（即来自一个没有经过 SFT 的模型）。基于这批数据，他们进行了指令微调（Instruction Tuning），然后又进行了下一步 RL。此时 RL 使用的奖励类型仍是之前的准确性奖励和格式奖励，只不过多加了一个“语言一致性”奖励，防止模型在回答过程中切换语言。

完成这一步后，又进行了一轮 SFT 数据收集：

用最新的模型检查点，生成了 60 万条带有思维链（Chain-of-Thought，CoT）的 SFT 数据；
另外还用 DeepSeek-V3 基础模型生成了 20 万条知识型 SFT 数据。

接下来，这 80 万条（60 万 + 20 万）数据被再次用于 RL。在这一阶段，数学或编程问题依旧用基于规则的方法来衡量准确度，而对其他问题则采用了人类偏好打分。

最终得到的 DeepSeek-R1，比没经历过额外 SFT+RL 的 R1-Zero 拥有明显更高的推理性能。如下表所示：

3.1 蒸馏：赋予小型模型推理能力

DeepSeek 也发布了若干更小的模型，并称之为“Distill（蒸馏）版”。不过，需要注意的是，他们所谓的“蒸馏”并不完全等同于传统深度学习里的知识蒸馏（knowledge distillation）。后者通常是让一个小模型去学习大模型输出的logits，并结合原始目标数据来训练。

蒸馏的通俗解释:

例1：特级教师带新老师

▸ 教师模型：教学30年的语文名师

▸ 学生模型：刚毕业的师范生

▸ 知识传递：

• 不仅教标准答案（硬标签）

• 还传授解题思路（软标签）

→ 新老师快速达到85%的教学水平

例2：香水制作工艺
• 原料：1吨玫瑰花（大模型）
• 蒸馏过程：

高温萃取精油（关键知识）
过滤杂质（去除冗余参数）
• 成品：10ml精华油（小模型）

→ 保留90%香气，体积缩小99%

而在这里，“蒸馏”更像是拿大模型生成的指令数据（SFT 数据）来直接微调小模型，比如 Llama 8B、70B 或 Qwen 系列（0.5B~32B 等）。具体而言，DeepSeek-R1-Distill 所用到的训练数据，正是此前 DeepSeek-R1 与 DeepSeek-V3 产生的那批 SFT 数据。

为了更好理解这个流程，可以看下图中标示的“Distill”部分：

一图胜千言， DeepSeek-R1 通过 4 种方式来强化推理能力

四讨论

4.1 蒸馏与强化学习的比较

以上的实验结果表明，通过对 DeepSeek-R1 进行蒸馏，小型模型能够取得强大的推理能力。但仍然存在一个问题：模型是否可以通过文中讨论的大规模强化学习（而不依赖蒸馏）达到类似的性能？

为了解答这一问题，DeepSeek在Qwen-32B-Base模型上进行了大规模强化学习，使用数学、代码和 STEM数据进行了超过10,000步的训练，生成了DeepSeek-R1-Zero-Qwen-32B。实验结果（见表 6）表明，该模型经过大规模 RL 训练后，其性能与QwQ-32B-Preview相当。然而，从 DeepSeek-R1 蒸馏得到的DeepSeek-R1-Distill-Qwen-32B在所有基准测试中都明显优于DeepSeek-R1-Zero-Qwen-32B。

图片来源：《DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning》

因此可以得出两个结论：

第一，将强大的模型能力蒸馏到小型模型中是一个高效且效果显著的方法，而小型模型依赖于文中提到的大规模 RL 训练可能需要巨大的计算资源，且其性能可能难以达到蒸馏模型的水平。

第二，尽管蒸馏策略既经济又有效，但要突破智能边界，可能仍需依赖更强大的基础模型和更大规模的强化学习。

4.2 一些不成功的尝试

在开发 DeepSeek-R1 过程中，DeepSeek尝试了过程奖励模型（PRM）和蒙特卡罗树搜索（MCTS），但均未成功。

过程奖励模型难以明确定义细粒度推理步骤，判断中间步骤正确性困难，自动标注效果差且手动标注难以扩展，还容易出现奖励作弊，增加训练成本，限制了其在大规模强化学习中的应用。

蒙特卡罗树搜索用于提升测试时计算可扩展性时，因大语言模型的token生成搜索空间远大于棋类游戏，虽设置最大扩展限制仍易陷入局部最优，且模型训练困难，影响生成质量，导致模型难以迭代改进。

五未来工作

未来，DeepSeek计划在以下方向上进一步研究 DeepSeek-R1：

通用能力：目前，DeepSeek-R1 在函数调用、多轮对话、复杂角色扮演和 JSON 输出等任务中的能力不及 DeepSeek-V3。未来，DeepSeek计划探索如何利用长推理链来增强在这些任务的表现。

语言混杂：DeepSeek-R1 当前针对中文和英文进行了优化，这可能在处理其他语言的查询时导致语言混杂问题。例如，即使查询使用的是非中英文，DeepSeek-R1 也可能在推理和响应中使用英语。DeepSeek计划在未来的更新中解决这一局限。

提示工程：目前模型对提示较为敏感，少样本提示会持续降低其性能。因此，建议用户使用零样本设置，直接描述问题并指定输出格式，以获得最佳效果。

软件工程任务：由于评估时间较长影响了强化学习过程的效率，大规模强化学习尚未广泛应用于软件工程任务。因此，DeepSeek-R1 在软件工程基准测试中的表现未能显著超越 DeepSeek-V3。未来版本将通过在软件工程数据上实施拒绝采样或在强化学习过程中引入异步评估来提高效率。

六参考

https://arxiv.org/pdf/2501.12948

https://www.53ai.com/news/LargeLanguageModel/2025020569317.html

https://baoyu.io/translations/understanding-reasoning-llms

机器学习过程能力能力模型冷启动强化学习

文章转载自yangyidba，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

万字长文解读 DeepSeek-R1 论文

一摘要

二引言