DeepSeek开源周总结#OpenSourceWeek之一

济南小老虎 2025-02-27

简要说明

deepseek 在 X 上面宣布了开源后计划
账号是 @deepseek_ai 话题是 #OpenSourceWeek 
发布时间是最近三天,发布了五个开源项目.

需要说明在 新浪微博上面查了下没有发现相关的内容. 
所以这里主要是总结一下 推特上面的部分内容. 

复制

官博说明

2025.2.21 时发布内容: 
🚀第 0 天：为#OpenSourceWeek热身！

我们是一个探索 AGI 的小团队@deepseek_ai 。
从下周开始，我们将开源 5 个 repos，以完全透明的方式分享我们微小但真诚的进展。
我们在线服务中的这些不起眼的构建模块已经在生产中被记录、部署和实战测试过。
作为开源社区的一部分，我们相信分享的每一条线路都会成为加速旅程的集体动力。
每日解锁即将到来。没有象牙塔 - 只有纯粹的车库能量和社区驱动的创新。

复制

第一个开源项目

🚀 #OpenSourceWeek第 1 天：FlashMLA

很荣幸与大家分享 FlashMLA 
我们为 Hopper GPU 开发的高效 MLA 解码内核，
针对可变长度序列进行了优化，目前已投入生产。

✅ BF16 支持
✅分页 KV 缓存（块大小 64）
⚡ H800 上内存受限 3000 GB/s，计算受限 580 TFLOPS

复制

第一个开源项目

需要英伟达的 Hopper GPU才可以发挥他的威力

Multi-Head Latent Attention

这个项目开源仅三天就有接近1万的 点赞, 非常令人震惊. 
github 上面也描写了, 是受到 FlashAttention 和 cutlass等项目的引发

作用: 来自知乎:
MLA 通过低秩联合压缩技术，减少了推理时的键值（KV）缓存，
从而在保持性能的同时显著降低了内存占用。以下是 MLA 的详细数学原理和工作机制。

在标准的 Transformer 模型中，多头注意力（Multi-Head Attention, MHA）
机制通过并行计算多个注意力头来捕捉输入序列中的不同特征。
每个注意力头都有自己的查询（Query, Q）、键（Key, K）和值（Value, V）矩阵，计算过程如下：

查询矩阵 Q：用于计算输入序列中每个位置的注意力权重。
键矩阵 K：用于与查询矩阵 Q 计算注意力分数。
值矩阵 V：用于根据注意力分数加权求和，得到最终的输出。
MLA 的核心思想是通过低秩联合压缩技术，减少 K 和 V 矩阵的存储和计算开销。

复制

第二个开源项目

🚀 #OpenSourceWeek第 2 天：DeepEP

很高兴介绍 DeepEP
第一个用于 MoE 模型训练和推理的开源 EP 通信库。

✅高效、优化的全员沟通
✅节点内和节点间均支持 NVLink 和 RDMA
✅用于训练和推理预填充的高吞吐量内核
✅用于推理解码的低延迟内核
✅原生 FP8 调度支持
✅灵活的 GPU 资源控制，实现计算-通信重叠

复制

第二个开源项目

要求
Hopper GPU（以后可能支持更多架构或设备）
Python 3.8及以上版本
CUDA 12.3及以上版本
PyTorch 2.1及以上版本
用于节点内通信的NVLink
RDMA网络用于节点间通信

DeepEP 是一个专为混合专家模型（Mixture-of-Experts, MoE）
和专家并行（Expert Parallelism, EP）设计的通信库。
它提供了高吞吐量和低延迟的全对全（all-to-all）GPU内核，
这些内核也被称为MoE分发（dispatch）和合并（combine）。该库还支持低精度操作，包括FP8。

为了与DeepSeek-V3论文中提出的组限制门控算法
（group-limited gating algorithm）保持一致，
DeepEP提供了一组针对非对称域带宽转发优化的内核，
例如将数据从NVLink域转发到RDMA域。这些内核具有高吞吐量，
适用于训练和推理预填充任务。
此外，它们还支持流式多处理器（Streaming Multiprocessors, SM）数量控制。

对于对延迟敏感的推理解码任务，DeepEP包含了一组纯RDMA的低延迟内核，
以最小化延迟。该库还引入了一种基于钩子（hook-based）的通信-计算重叠方法，
该方法不占用任何SM资源。
注意：该库中的实现可能与DeepSeek-V3论文中的描述存在一些细微差异。

复制

性能表现

github 上面记录着使用H800 和 NVLINK infinibad 以及 pure RDMA的性能表现
需要说明 英伟达已经收购了迈洛思, 所以世界上infiniband 的显卡都是英伟达一家生产的最好

github上面有一个性能展示, 贷款都是超过 40GB/s
延迟都不超过400微秒. 

硬件的提升是AI算力的基石. 

复制

第三个开源项目

🚀 #OpenSourceWeek第 3 天：DeepGEMM

介绍 DeepGEMM - 一个支持密集和 MoE GEMM 的 FP8 GEMM 库，
为 V3/R1 训练和推理提供支持。

⚡ Hopper GPU 上最高可达 1350+ FP8 TFLOPS
✅没有过多的依赖，像教程一样简洁
✅完全即时编译
✅核心逻辑约为 300 行 - 但在大多数矩阵大小上均优于专家调优的内核
✅支持密集布局和两种 MoE 布局

复制

第三个开源项目简介

DeepGEMM

DeepGEMM是一个库，专为干净高效的FP8通用矩阵乘法（GEMM）设计，
(General Matrix Multiplications)
具有细粒度缩放，如DeepSeek-V3中提出的。
它支持普通和专家混合（MoE）分组GEMM。
该库使用CUDA编写，在安装过程中无需编译，
而是在运行时使用轻量级的即时编译（JIT）模块编译所有内核。

目前，DeepGEMM仅支持NVIDIA Hopper张量核心。
为了解决不精确的FP8张量核心累积问题，
它使用了CUDA-core两级累积（提升）。
虽然它借鉴了CUTLASS和CuTe的一些概念，但它避免了严重依赖它们的模板或代数。
相反，该库设计简单，只有一个核心内核函数，包含约300行代码。
这使得它成为学习Hopper FP8矩阵乘法和优化技术的一个干净易用的资源。

尽管设计轻巧，但DeepGEMM的性能在各种矩阵形状上匹配或超过专家调优的库。

这个开源项目应该是借鉴了 英伟达自己的 cutlass 开源你项目. 
但是通过简单的代码设计, 将矩阵乘法的计算效能提高了很多.
按照官方资料的说法是提升了 1.1-2.7倍. 

按照网络设备里面 性能提升 20% 价格就要贵一倍的情况. 
提升还是非常可观的

复制

开源前三天总结

感觉deepseek 开源前三天开源的项目,都是在向国外描述
在使用H800这种 比 国际大厂低不只一档的设备情况下
如果通过敲死妙想以及极致的工程技术来实现不亚于Grok的效能. 

的确也应证了美国IT届的那句话,制裁可能会起反作用
但是也可能会导致美国增加制裁的力度
说不定H800和H20也会被卡脖子

所以软件是灵魂, 但是灵魂不能脱离躯体(硬件)还独自辉煌. 
需要继续加油, 继续努力.

复制

开放源代码矩阵

文章转载自济南小老虎，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

DeepSeek开源周总结#OpenSourceWeek之一

简要说明

官博说明

第一个开源项目

第一个开源项目

第二个开源项目

第二个开源项目

性能表现

第三个开源项目

第三个开源项目简介

开源前三天总结

评论

相关阅读