❖ DeepSeek-R1 发布,对标 OpenAI o1 正式版。1 月 20 日,DeepSeek 正式
发布一系列 DeepSeek-R1 模型,包括 DeepSeek-R1-Zero、DeepSeek-R1 和
DeepSeek-R1-Distill 系列。DeepSeek-R1 模型推理能力优异,基准测试表现与
OpenAI-o1-1217 相当,且 API 服务定价远低于 OpenAI 同类产品。
❖ 大规模强化学习,激发大模型推理潜能:DeepSeek-R1-Zero 在技术路线上
实现了突破性创新,成为首个完全摒弃监督微调环节、完全依赖强化学习训练
的大语言模型,证明了无监督或弱监督学习方法在提升模型推理能力方面的
巨大潜力。在此基础上,DeepSeek-R1 对 R1-Zero 进行了改进。通过引入冷启
动数据,并历经推理导向强化学习、拒绝采样、监督微调以及全场景强化学习
的多阶段训练,充分发挥了强化学习的自学习和自进化能力。
❖ 知识蒸馏技术,让小模型也能“聪明”推理:DeepSeek 团队深入探索了
将 R1 的推理能力蒸馏到更小模型中的潜力,发现经过 R1 蒸馏的小模型在推
理能力上实现了显著提升,甚至超过了在这些小模型上直接进行强化学习的
效果,证明了 R1 学到的推理模式具有很强的通用性和可迁移性,能够通过蒸
馏有效传递给其他模型。这些结论为业界提供了新的启示:对小模型而言,蒸
馏优于直接强化学习,大模型学到的推理模式在蒸馏中得到了有效传递。
❖ DeepSeek-R1 高性价比 API 定价,极具商业化落地潜力: DeepSeek-R1
API 服务定价为每百万输入 tokens 1 元(缓存命中)/4 元(缓存未命中),每
百万输出 tokens 16 元,远低于可比大模型 API 服务。DeepSeek-R1 的高性价
比 API 定价有助于开发者在使用后加速模型的功能迭代,从而解决目前模型
存在的不足。
❖ 强化学习与知识蒸馏,DeepSeek 引领大小模型创新之路:对于大模型,
DeepSeek-R1-Zero 展示的无 SFT 的强化学习技术为大模型开发者提供了一种
新的训练范式,即通过强化学习来激发模型的内在潜力,从而在多个领域实现
更高效、更精准的推理能力。对于小模型,DeepSeek-R1-Distill 系列通过知识
蒸馏技术,成功将大模型的推理能力传递给小模型,实现了小模型在推理任务
上的显著提升,引领了小模型的发展方向。
❖ 投资建议:建议重点关注基础设施领域的公司,如英伟达、海光信息、寒武
纪、协创数据、英维克、中科曙光、浪潮信息、润泽科技、欧陆通、曙光数创、
申菱环境、东阳光等,同时持续关注全球各大模型厂商、学界的创新进展。
❖ 风险提示:技术迭代不及预期的风险;商业化落地不及预期的风险;政策支
持不及预期风险;全球宏观经济风险。
文档被以下合辑收录
相关文档
评论