火出圈的DeepSeek，到底强在哪？

数据最前线 2025-02-06

362

DeepSeek开发者为杭州深度求索人工智能基础技术研究有限公司，成立于2023年7月，由宁波程恩企业管理咨询合伙企业和梁文锋共同持股。梁文锋是金融圈成名已久的高手，其创立的幻方量化为国内量化私募巨头之一。2023年5月梁文锋宣布要做通用人工智能，7月DeepSeek成立，专注于AI大模型的研究与开发。

DeepSeek之所以能火爆AI圈，主要来自于两个方面：

开源且强大的推理模型

2024年5月，DeepSeek发布DeepSeek-V2开源MoE模型，以其高效的性能在全球AI界掀起了一波热度；
2024年12月，仅过了7个月DeepSeek-V3发布，不仅在性能上超越了主流开源模型，还与世界顶尖的闭源模型不相上下；
2025年1月，DeepSeek发布了推理模型DeepSeek-R1正式版，在数学、代码、自然语言推理等多个关键领域展现出了令人惊叹的实力，能与OpenAI o1正式版比肩。并且同步开源模型权重，允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。R1版本的推出，在海外被惊呼“这才是真正的开放的人工智能”。

DeepSeek-R1发布后不久，便登顶苹果中国地区和美国地区应用商店免费APP下载排行榜，超越了ChatGPT。

史无前例的性价比

早在DeepSeek-V2发布时，DeepSeek便拉起了行业内的价格战，其推理成本被降到每百万token仅1块钱，约等于Llama3 70B的七分之一，GPT-4 Turbo的七十分之一。

而DeepSeek V3的API定价为输入每百万tokens 0.5元（缓存命中）/2元（缓存未命中），输出每百万tokens 8元，与字节Doubao-pro-256k定价输入每百万tokens 5元，输出每百万tokens 9元的水平相当，在国产模型中性价比继续提升。

极致的性价比来自于DeepSeek创新的训练方法大大降低了训练成本，DeepSeek V3是一个拥有671B参数的MoE模型，训练总共才用了不到280万个GPU小时，而Llama 3 405B却用了3080万GPU小时。用训练一个模型所花费的成本来说，训练一个DeepSeek V3只需要花费557.6万美元，相比之下，一个简单的7B Llama 3模型则需要花费76万美元。

这也让业界普遍认为未来对GPU的需求将大大下降，全球算力板块应声下跌，甚至将DeepSeek称为“英伟达最大的空头”，以一己之力带崩美股科技板块，其影响力可见一斑。

写在最后

DeepSeek火出圈正值中国农历春节来临之际，全国人民在欢度新春佳节的同时，也深深为我国科技界取得的成就而自豪。

DeepSeek的火爆缓解了国内产业界人士的焦虑，提振了信心，未来对抗国际AI技术霸权时，DeepSeek必将是中国大模型技术复仇者联盟中的重要成员；
DeepSeek的成功是通过出其不意的技术创新和独特的算法架构实现的，特别是在高端芯片受限的情况下，利用优化算法设计和资源分配，显著降低了训练成本，性能却与国际上最先进的模型想媲美，展示了中国在技术创新方面的韧性和潜力；
开源的DeepSeek允许全球开发者自由修改、使用和分发模型，为全球AI社区提供了新的研究和发展机会，向全世界展现了中国AI力量。

人工智能