DeepSeek创始人梁文锋专访 20250201.pdf

鲁路修

6页

5次

2025-02-13

免费下载

DeepSeek

创始人梁文锋专访

Deepseek

龚超

整理

记者

: DeepSeek V2 模型发布后，迅速引发了一场大模型价格战。有人说你们是行业的一条

鲶鱼，你们是有意成为鲶鱼的吗？

梁文峰

: 我们不是有意成为一条鲶鱼，只是不小心成了一条鲶鱼。

记者

: 这个结果让你们意外吗？

梁文峰

: 非常意外。我们没想到价格让大家这么敏感。我们只是按照自己的步调来做事，然

后核算成本定价。我们的原则是不贴钱，也不赚取暴利。这个价格也是在成本之上，稍微有

点利润。

记者

: 5 天后智谱 AI 就跟进了，之后是字节、阿里、百度、腾讯等大厂。智谱 AI 降的是

一个入门级产品，和我们同级别的模型仍然收费很贵。字节是真正第一个跟进的，旗舰模型

降到和我们一样的价格，然后触发了其他大厂纷纷降价。因为大厂的模型成本比我们高很多，

所以我们没想到会有人亏钱做这件事。最后就变成了互联网时代的烧钱补贴的逻辑。

记者

: 外部看来，降价很像在抢用户，互联网时代的价格战通常如此。抢用户并不是我们的

主要目的，我们降价一方面是因为我们在探索下一代模型的结构中，成本先降下来了，另一

方面也觉得无论 API 还是 AI，都应该是普惠的，人人可以用得起的东西。

记者

: 在这之前，大部分中国公司都会直接 copy 这一代的 Llama 结构去做应用。为什么你

们会从模型结构切入？

梁文峰

: 如果目标是做应用，那沿用 Llama 结构，短平快上产品也是合理选择。但我们目的

地是 AGI，这意味着我们需要研究新的模型结构，在有限资源下实现更强的模型能力。这是

scale up 到更大模型所需要做的基础研究之一。除了模型结构，我们还做了大量其他的研究，

包括怎么构造数据，如何让模型更像人类等，这都体现在我们发布的模型里。

记者

: Llama 的结构在训练效率和推理成本上，和国外先进水平估计也已有两代差距。这种

代差主要来自哪里？

梁文峰

: 首先训练效率有差距，我们估计国内最好的水平和国外最好的相比，模型结构和训

练动力学上可能有一倍的差距。光这一点，我们要消耗两倍的算力才能达到同样效果。另外

数据效率上可能也有一倍差距，也就是我们要消耗两倍的训练数据和算力才能达到同样的效

果。合起来就要多消耗 4 倍算力。我们要做的正是不停的去缩小这些差距。

记者

: 大部分中国公司都选择既要模型又要应用，为什么 Deepseek 目前选择只做研究探索？

梁文峰

: 因为我们觉得现在最重要的是参与到全球创新的浪潮里去。过去很多年，中国公司

习惯了别人做技术创新，我们拿过来做应用变现。但这并非是一种理所当然。这一波浪潮里，

我们的出发点就不是趁机赚一笔，而是走到技术的前沿，去推动整个生态发展。

记者

: 互联网和移动互联网时代，留给大部分人的惯性认知识是，美国擅长搞技术创新，中

国更擅长做应用。我们认为随着经济发展，中国也要逐步成为贡献者，而不是一直搭便车。

过去 30 多年，IT 浪潮里，我们基本没有参与到真正的技术创新里。我们已经习惯摩尔定律

从天而降，躺在家里 18 个月，就会出来更好的硬件和软件。Scaling Law 也在被如此对待。

但其实这是西方主导的技术社区一代代孜孜不倦创造出来的。只因为之前我们没有参与这个

过程，以至于忽视了它的存在。

记者

: 为什么 DeepSeek V2 会让硅谷的很多人惊讶？

梁文峰

: 在美国每天发生的大量创新里，这是非常普通的一个。他们之所以惊讶，是因为这

是一个中国公司，在以创新贡献者的身份加入到他们游戏里去。毕竟大部分中国公司习惯

follow，而不是创新。但这种选择放在中国语境里，也过于奢侈。大模型是一个重投入游戏，

不是所有公司都有资本只去研究创新，而不是先考虑商业化。

记者

: 创新的成本肯定不低，过去那种拿来主义的惯性也和过去的国情有关。但现在你看，

无论中国的经济体量还是字节、腾讯这些大厂的利润放在全球都不低。我们创新缺的肯定不

是资本，而是缺乏信心，以及不知道怎么组织高密度的人才，实现有效的创新。

记者

: 为什么中国公司，包括不缺钱的大厂，这么容易把快速商业化当第一要义？

梁文峰

: 过去 30 年我们都只强调赚钱，对创新是忽视的。创新不完全是商业驱动的，还需

要好奇心和创造欲。我们只是被过去那种惯性束缚了，但它也是阶段性的。

记者

: 但你们究竟是一个商业组织，而非一个公益科研机构。选择创新，又通过开源分享出

去，那要在哪里形成护城河？像 5 月这次 MLA 架构的创新也会很快被其他家 copy 吧？

梁文峰

: 在颠覆性的技术面前，闭源形成的护城河是短暂的。即使 Open AI 闭源，也无法阻

止被别人赶超。所以我们把价值沉淀在团队上，我们的同事在这个过程中得到成长，积累很

多 know-how，形成可以创新的组织和文化，就是我们的护城河。开源发论文其实并没有失

去什么，对于技术人员来说，被 follow 是很有成就感的事。其实开源更像一个文化行为，而

非商业行为。给予其实是一种额外的荣誉，一个公司这么做也会有文化的吸引力。

记者

: 你怎么看类似朱啸虎的这种市场信仰派观点？

梁文峰

: 朱啸虎是自洽的，但他的打法更适合快速赚钱的公司。而你看美国最赚钱的公司，

都是厚积薄发的高科技公司。但做大模型，单纯的技术领先也很难形成绝对优势。

记者

: 你们赌的那个更大的东西是什么？

梁文峰

: 我们看到的是，中国 AI 不可能永远处在跟随的位置。我们经常说，中国 AI 和美国

有一两年差距，但真实的 gap 是原创和模仿之差。如果这个不改变，中国永远只能是追随

者。所以有些探索也是逃不掉的。英伟达的领先不只是一个公司的努力，而是整个西方技术

社区和产业共同努力的结果。他们能看到下一代的技术趋势，手里有路线图。中国 AI 的发

展同样需要这样的生态。很多国产芯片发展不起来，也是因为缺乏配套的技术社区，只有第

二手消息。所以中国必然需要有人站到技术的前沿。

记者

: 现在的 DeepSeek 有一种 OpenAI 早期的理想主义气质，也是开源的。后边你们会选

择闭源吗？

梁文峰

: 我们不会闭源。我们认为先有一个强大的技术生态更重要。

记者

: 你们有融资计划吗？看有媒体报道，幻方对 DeepSeek 独立拆分上市的计划。硅谷的

AI 创业公司，最终也都难免要和大厂绑定。

梁文峰

: 短期内没有融资计划。我们面临的问题从来不是钱，而是高端芯片被禁运。

记者

: 很多人认为做 AGI 和做量化是完全不同的两件事。量化可以闷声去做，但 AGI 可能

更需要高举高打，需要结盟。这样可以让你的投入变大。

梁文峰

: 更多的投入并不一定产生更多的创新，否则大厂可以把所有的创新包揽了。

记者

: 你们现在不做应用，是因为你们没有运营的基因吗？

梁文峰

: 我们认为当前阶段是技术创新的爆发期，而不是应用的爆发期。长远来说，我们希

望形成一种生态，就是业界直接使用我们的技术和产出，我们只负责基础模型和前沿的创新。

然后其他公司在 Deepseek 的基础上构建 toB、toC 的业务。如果能形成完整的产业上下游，

我们就没必要自己做应用。当然如果需要，我们做应用也没障碍。但研究和技术创新永远是

我们第一优先级。

记者

: 但选择 API 的话，为什么选择 DeepSeek 而不是大厂？

梁文峰

: 未来世界很可能是专业化分工的基础。大模型需要持续创新，大厂有他的能力边界

并不一定适合。

记者

: 但技术真的可以拉开差距吗？你也说过，并不存在绝对的技术秘密。

梁文峰

: 技术没有秘密，但重制需要时间和成本。英伟达的显卡理论上没有任何技术秘密，

很容易复制。但重新组织团队以及追赶下一代技术都需要时间。所以实际的护城河还是很宽。

记者

: 你们降价后字节率先跟进，说明他们还是感受到某种威胁。你怎么看？

梁文峰

: 说实话我们不太 care 这件事，只是顺便做几件事。提供云服务不是我们的主要目

标，我们的目标还是去实现 AGI。目前没有看到什么新解法，但大厂也没有明显占优。大厂

有现成的用户，但他的现金流业务也是他的包袱，也会让他成为随时被颠覆的对象。

记者

: 你怎么看 deepseek 之外的 6 家大模型创业公司的终局？

of 6

免费下载

deepseek

相关文档

评论