前言
今天这篇文章,我来总结下这周看到的一些最新的有意思的东西,帮大家总结下。
后面有空,我也会定期总结下看到的最新技术趋势,限于个人精力和能力有限,不保证频率和正确性。
本周最热闹的肯定是deepseek开源周了,那我们就从这里开始,聊聊DeepSeek,GPT 4.5, 以及对教育的启发。
常学常新,希望大家喜欢!
DeepSeek开源一系列底层框架,宣布理论推理成本利润率可达545%
前面 DeepSeek 通过比肩OpenAI 的深度推理能力,以及在系统架构上的创新吸引了全球眼光。从过年到现在 DeepSeek 现在成了全民热点了。看到一系列政府,企业都在纷纷部署使用,以及推出相关产品。
DeepSeek 开源周将底层做的优化全部开源了出来,主要包括以下几个内容:
1、FlashMLA——提高 LLM 推理效率,AI加速工具。
FlashMLA 基于 Hopper GPUs 的有效 MLA 解码内核,可针对可变长度序列进行优化。
FlashMLA 的关键技术是低秩矩阵压缩和硬件感知优化,低秩矩阵压缩大幅降低了内存的占用,针对最新的硬件特性针对性的优化,充分利用其计算能力,适用于长序列处理场景。
2、DeepEP——解锁 MoE 模型通信瓶颈
DeepEP 用于混合专家(MoE)和专家并行(EP)的定制通信库。
其优化思路是传统的缓冲区管理、异步通信和动态任务调度策略,但是其对英伟达硬件的深入了解和控制能力使其做到了极致性能。
3、DeepGEMM——训练推理V3/R1背后的“动力”
DeepGEMM为 DeepSeek-V3 专门设计的,用于 FP8 的,通用矩阵乘法(GEMM)库。
DeepGEMM 采用即时编译(JIT)技术,在运行时根据具体硬件生成最优指令,为了性能无所不用其极,赞叹赞叹。
4、DualPipe与EPLB三连齐发——训练效率的“双引擎”加速器!
DualPipe 是一项在 DeepSeek-V3 技术报告中引入的双向流水线等值算法,它实现了向后和向后计算通信阶段的完全重叠,还减少了流水线气泡。
Expert Parallelism Load Balancer (EPLB):用于 MoE 的负载均衡算法,通过复制高负载专家并智能地分配专家到不同 GPU 上,确保计算资源的均衡利用。
5、3FS&smallpond——为深度学习等数据密集型应用提供强大的支持。
专为现代算力场景设计的高性能并行文件系统3FS(Fire-Flyer File System)及配套数据处理框架Smallpond。3FS ( Fire-Flyer File System ) 是一款高性能的分布式文件系统,旨在解决 AI 训练和推理工作负载带来的挑战,利用现代 SSD 和 RDMA 网络提供共享存储层,简化分布式应用程序的开发。
这套组合拳完成了 DeepSeek 工具链的闭环:FlashMLA(推理优化)、DeepEP(通信库)、DeepGEMM(矩阵计算)、DualPipe(流水线并行优化)分别覆盖计算、通信与调度,而 3FS 的加入补全了存储层的拼图,形成从数据加载到模型训练的全链路优化。
最后DeepSeek公开推理系统架构,通过改善吞吐和延迟,每个H800节点每秒处理73,700/14,800输入/输出token,成本利润率可达545%。
DeepSeek 一系列组合拳将系统架构算是优化到了极致,打破了大模型成本高的神话。DeepSeek 开源成了“真OpenAI”!
DeepSeek是否会繁荣应用
DeepSeek 虽然很火,但是还是要很冷静的思考下 DeepSeek会给 AI 带来的变化。
当前AI 核心的是没有出现真正价值的应用,阻碍应用出现的原因主要有两个:
1、AI 的能力有局限,OpenAI和 DeepSeek 的 R1 推动的深度推理能力相当于进步了一大步。
2、成本高,DeepSeek 打破了 AI 推理贵的神话,通过开源极大的推动了业界的进步。
但是这两点是否就立刻能宣布应用的繁荣,感觉还是不够。有两个判断:
1、从能力上讲,深度推理这条路很快就会到瓶颈。深度推理只能解决部分问题,AI 能力泛化并没有解决,包括也不支持多模态等等。
2、DeepSeek 工程能力强,成本低,但是其他友商并不是同样低。
应用的繁荣还是需要全能力,全行有变化。所以说 DeepSeek R1 并不见得能带来应用繁荣,DeepSeek 真正扮演应该是鲶鱼的角色,通过开源促进了行业的升级换代。所以说:
DeepSeek R1 肯定不会繁荣应用。DeepSeek 不一定会,但DeepSeek坚持开源可能会。
GPT 4.5 比 DeepSeek 贵 300 到 1000 倍
OpenAI 发布了 4.5 ,但是基本上被群嘲了。具体原因可以简单看下两者对比:
一、核心能力对比
- 知识广度与交互体验
- GPT-4.5:
- 知识覆盖范围更广,预训练数据量达 GPT-4 的 10 倍,支持 256K 上下文窗口,可解析长文本如《战争与和平》。
- 在情感交互上表现突出,通过强化学习优化对齐技术,能捕捉用户情感线索并提供情感支持(如心理咨询场景),用户评价其回应“更像真实朋友”。
- 多模态能力有限,仅支持文件上传(PDF、Excel 等),暂不支持语音、视频交互。
- DeepSeek R1:
- 专注于垂直领域优化,在数学推理(AIME 2025 得分 79.8%)和代码生成(HumanEval 94%)等任务中表现优于 GPT-4.5。
- 中文理解更精准,例如能正确翻译网络流行语“yyds”为“永远滴神”,而 GPT-4.5 可能产生文化误译。
- 推理与效率
- GPT-4.5:
- 依赖无监督学习的直觉推理,在无需显式推理链的情况下生成创意性回答(如结合科学事实与人文视角讨论太空探索)。
- 在编程任务中生成代码量较大(如 100 行),但实际通过率(SWE-Bench Verified 38%)低于 DeepSeek R1(49.2%)。
- DeepSeek R1:
- 采用原生稀疏注意力架构(NSA)和强化学习优化,内存需求仅为传统方法的 5%-13%,响应速度比 GPT-4.5 快 30%。
- 代码生成更高效,例如将贪吃蛇程序压缩至 20 行并自动注释,适合工业级部署。
二、价格对比
- API 成本
- GPT-4.5:输入 75 美元/百万 tokens,输出 150 美元/百万 tokens,是 GPT-4o 的 30 倍。
- DeepSeek R1:输入 0.5 美元/百万 tokens(正常时段),错峰时段低至 0.25 美元,开源版本可本地部署(如 RTX 4090 显卡)。
- 价差:以输入成本计算,GPT-4.5 是 DeepSeek R1 的 300 倍(正常时段)或 1000 倍(错峰折扣)。
- 性价比争议
- 业内批评 GPT-4.5 性能提升有限(如编码能力未达顶尖),但价格涨幅过高,属于“技术品牌溢价”。
- DeepSeek 官方指出,其成本优势显著,且在中文场景和推理任务中已实现超车,千倍价差缺乏合理性。
三、两者合适的场景
- 选择 GPT-4.5:若需高情商交互、通用知识服务且预算充足(如企业咨询、创意领域)。
- 选择 DeepSeek R1:若追求性价比、垂直任务优化(如数学/代码生成)或需本地化、开源部署(如中小企业和教育机构)。
大模型训练对教育的启发
前面讲了 DeepSeek,OpenAI GPT 4.5 大模型,我们延展思考下,大模型训练对教育其实也有启发作用。
大模型训练遵循,第一步先扩大参数,灌入更多数据。第二步卷增强学习时间。
这对教小孩也有启发
第一步:一定的阅读量是基础,阅读多了,智力自然上来了。
第二步:在广泛阅读的基础上,反复去学习一些深度的内容,深度思考总结能力就上来了。
如果屏幕前有小孩的,相信知道怎么抓教育的关键了。
