暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DeepSeek的三板斧

济南小老虎 2025-03-06
9

前言

自己是数学学渣.
高等离散概率线性都很差.
数学符号都已经还给了老师和课本.
这里仅是根据自己最近一些学习的总结思考.
大概率不是很对, 只能意会. 
并且我没有严格的数学推导

复制

LLM的历史

LLM之父应该是Google. 
2017年 几位在Google的人发表了论文:
Attention is All you Nedd!
创造性的开窗了 Transformer的模型.
不管是GPT/LLama/Deepseek 
还是国内一堆大厂套壳的大模型
都离不开这个祖宗. 

不过话说回来. 
Google发论文养活了一大半的开源
但是自己获益微乎其微. 

比俩男人生孩子的奥特曼的CLoseAI强一万倍了. 

复制

三板斧

FP8
MOE 
MLA
站着巨人的肩膀上

复制

FP8

当然了FP8只是一个整体的概述. 不仅包含FP8
Nvidia在2022年的Hopper架构上面开始支持FP8的精度.
看DeepSeek的开源介绍,大部分优化都是基于H800来计算

利用了他们的FP8精度,以及 GEMM的矩阵乘法等基础进行扩展.
FP8的量化, 至少减少了一半的参数大小.
对DeepSeek的快速部署提供了至少三分之一的帮助. 
因为不仅内存减少了. 
一般GPU的FP8的算力一半是FP16的一倍以上.
相当于事半功倍的最好代言.

所以我理解FP8是 DeepSeek 获得成功的一大助力. 
并且没有这个的话 显存还得翻一倍,单机部署难度double.

复制

MOE

Mixture of Experters 

混合专家模型在训练中应该能够减少很大部分算力的消耗.
并且在推理中能够减少激活内存,加快结果的产出和反应效率
唯一的问题可能就是精确度可能受到限制.
并且可能会出现 28原则导致的 专家不平衡. 

这也是MoE出现那么多年,但是玩的好的大厂少的根本原因
但是看DeepSeek 出现的DeepEP以及其他开源项目
应该是减少了Hot experter 以及 不均衡的问题

这样的情况下 一方面训练快,另外一方面推理时的显存用量减少巨大. 

复制

MLA

MHA->MQA->GQA->MLA

Multi-Head Attention
Multi-Query Attention
Grouped-Query Attention
Multi-head Latent Attention

多头潜在注意力模型
不考虑训练, 在推理模式下
Q/K/V 的内存用量是并发情况下显存消耗的最大户
随着tokens 两的增长, 他几乎随着并发数,对显存需求线性的增长.
所以前面的一些处理可以理解为,减少单用户的内存使用和资源消耗
MLA 更多的是减少并发时的显存消耗
让不仅可以单机部署大模型,还能支撑一定的并发数量. 

MLA 其实 核心是 低秩投影压缩的模式
将不同tokens 的KV 通过低秩压缩的模式, 压缩到可能是 64字节的变量里面
然后通过一个不知道啥算法的方式(开源有, 我看不懂)
实现可以再需要的时候 通过 这个压缩后的变量, 将KV值解析出来的过程
然后这样能够极大的减少 QKV 在推理时的内存消耗

有资料说, 可以减少 93%的推理过程中的内存使用(KV缓存)
所以通过这种方式, 虽然H20阉割到只有 15%的H100的算力
但是经过deepseek的优化,反而可能比H100跑国外大模型还快.

资源使用量更少, 效率更快

复制

总结

DeepSeek 的确是一个现象级的开源项目
不仅仅是国内人的自high,其实他远远比<哪吒2>更加引起震动
次时代的革命是AI的革命
堆硬件没问题.
如果通过算法,工程学,尤其是马斯克说的通过聪明的科学家
实现低档次的硬件能够做到高档次的效果. 

这样未来不管是无人驾驶,忠诚僚机,还是通过天地系统
扫描全球的卫星影像,发现就是摧毁的进行战略武器的准备

那就是枪杆子里面出话语权的时刻了. 
所以上大学一定要好好学数学,不能跟我一样数学不好,看不懂公式

复制

文章转载自济南小老虎,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论