
行业定期报告 | 计算机
1 Deepseek 发布全新注意力机制 NSA
2 月 18 日,Deepseek、北京大学和华盛顿大学提出全新注意力机制 NSA。相对
于传统的注意力机制,NSA 是一种硬件优化的稀疏注意力机制,适用超长上下文、多
轮对话等场景,能够在保证性能的同时显著提升推理速度。
NSA 通过三个并行的注意力分支处理序列实现,包含 token 压缩、token 选择
和滑动窗口三部分。
1、 token 压缩:将连续的键或值块聚合为块级表示,得到压缩后的键和值。这
种粗粒度压缩帮助模型获取全局信息
2、 token 选择:用于识别并保留最相关的 token,同时减少计算开销。这里通
过计算压缩块的分数,从高到低排序来判断各个块级表示的重要性。在里面
选择 top-�稀疏区块中的 token 进行细粒度的 tokens 计算。
3、 滑动窗口:用于处理局部上下文信息,保障语法连贯性和语义完整性。
同时,NSA 通过可学习的门控机制,将三个注意力分支单独计算,并调整他们的
权重,进而实现全局和局部注意力的动态平衡。
硬件层面上通过 Triton 实现了硬件对齐的稀疏注意力内核。内核设计上采用了
以下策略:
1、 查询加载(Grid Loop):内核按组策略加载 Queries。每个 GQA 组共享 KV。
这种方法减少了冗余的键值传输,提高了内存访问效率。
2、 键值获取(Inner Loop):在每个查询加载后,内核提取相应的稀疏 KV 块。
这些 KV 块存储在高带宽内存(HBM)中。在计算时传输到片上静态随机存取
存储器(SRAM)中。
3、 注意力计算:内核在 SRAM 中执行注意力计算。绿色块表示存储在 SRAM 中的
数据,蓝色块表示存储在 HBM 中的数据。这种内存层次结构优化了数据传输
华福证券
华福证券
相关文档
评论