暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

2025 春节随想,从 deepseek 到 AI 数据库

一、2025 春节科技圈春节最火的 deepseek

25 年春节科技圈最靓的崽是爆火的 deepseek。

Deepseek 发布了DeepSeek-R1 大模型 ,在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版,而且训练成本远低于 OpenAI。

二、App 迅速爆火

Deepseek App 在 Apple 商店登顶了苹果中国和美国应用商店的免费APP下载排行榜‌。Deepseek App 是同时具备搜索和深度思考的 Chat App。

三、OpenAI 紧急应对,发布Deep Research

OpenAI 2 月 3 日紧急发布了新功能,在 ChatGPT 里面继承 deep research 功能。

详细信息可以看YouTube 视频:https://www.youtube.com/watch?v=YkCDVn3_wiw

四、deepseek 的爆火的原因

大模型从 22 年底爆火以来,scaling law 因为数据的瓶颈,由 OpenAI 引领走上另外一条道路,发展深度推理的能力。深度推理类似人类的深度思考能力,帮助大模型提升复杂问题的解决能力。

OpenAI 发布 o1 之后,并没有开源训练方法,业界一直在探索相应的方法,大家都知道强化学习可以训练出深度推理,但是怎么做到是不清楚的。

1、deepseek 是开源的第一个复现并且能力和 O1 相当。这本身就是一个很大的突破。deepseek 的训练方法也非常有意义。

OpenAI 发现基础模型数据够多,参数够大,大模型就能顿悟出智能。与 GPT 的 next token prediction(ntp) 规模化以后可以涌现通用智能异曲同工,DeepSeek发现,只要结果明确可判定,结果导向的强化学习可以自然涌现出复杂的内部推理能力,因为正确的结果需要推理。这个发现的意义,对于领域今后的深度推理的推进非同一般,可媲美GPT系列预训练时发现的scaling law。

2、工程上有大量的优化,训练和推理成本都非常低。

DeepSeek的训练成本相对较低。据报道,DeepSeek-V3的训练成本比一年前开发的美国当前模型低约8倍,仅为557.6万美元,而同等规模的模型通常需要约10亿美元‌。此外,DeepSeek的推理成本也非常低,其API定价每百万词元仅为2.2美元,是OpenAI新模型的三十分之一‌。

deepseek 核心的几个优化有:

1)混合专家模型MOE 架构:每次推理需要激活的专家模块只需要 37B,减少 95% 的计算资源消耗。创新性引入 “共享专家”机制和自然负载均衡,解决传统 MoE中专家资源分配不均的痛点。

2)注意力机制的升级:多头潜注意力(MLA)通过潜变量动态调整注意力权重,在降低内存占用的同时增强语义捕捉能力。

3)多令牌预测(MTP):针对数学、代码等高逻辑密度场景,通过并行预测多个token 减少推理断层,生成效率提升 30% 以上。

4)长链推理与训练优化:CoT(Chain of Thought) 标注数据驱动模型拆分复杂问题为多步逻辑,并观察到反思、多路径推理等类人行为。

5)DualPipe 流水线与FP8 混合精度等技术:将训练效率提升至传统方法的1.5 倍。

DeepSeek 的技术路径类似日本汽车工业对发动机的“精益优化”——通过涡轮增压(类比 MoE 动态调度)、轻量化设计(FP8 精度控制)等工程创新,用小资源撬动高性能,而非单纯追求“更大参数、更多算力”的粗暴扩张。

五、大模型持续进步为应用繁荣奠定了基础

搞大模型的都在期待 AGI(通用人工智能) 那一天。

过去一年,堆参数和堆数据不行了,通过强化学习发展深度思考能力,提升大模型复杂问题的解决能力。

deepseek 带来显著的启示是,能力上升的同时,成本也还有持续下降方向。

应该说 deepseek 换个思路,大大的把大模型能力往前推进了一步。大模型能力的持续提升,为 AI 原生应用的繁荣也带来了基础。

六、模型最终同质化,企业自身业务,以及构建的数据飞轮才是差异化根本

OpenAI 和 deepseek 带了一个很好的头,相信马上会有一堆厂家跟上。数字化产品,类似数据库,云计算等等,最终会陷入同质化。各个模型的能力会有差距,但是会缩小到一定的程度,模型本质上最终同质化。

算法和技术很难成为长期壁垒,企业自身业务数据,以及用户带来的生态才是壁垒,也是大家常说的数据飞轮。

七、解决企业数据价值发挥问题,“AI 数据库”或会诞生

什么是 AI 数据库?

有一个可能性是:集成检索,推理(集成挂大模型,小模型),缓存能力。用户很容易存储和带语义的检索数据。相比传统数据库解决 ACID 问题,AI 数据库核心要解决的是查询效果,降低使用门槛和成本。其中 AI 数据库,效果是其核心价值。

业界也有各种探索,大模型时代,数据使用碰到核心是效果问题,我们看到业界两类解决效果的思路。

一类是提升 embedding 和reranker 算法,典型的是最近 databricks 投资的 voyage AI。

另外一列是方法是通过给结构化数据自动添加语义词汇,从而给结构化数据增加知识解析,代表创业公司有Illumex。

当能这个领域还不是很清晰,但是值得探索一下,欢迎大家留言说一说心目中的 AI 数据库应该是怎么样的。

文章转载自大数据和云计算技术,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论