排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
为什么说华为昇腾,是DeepSeek的“绝配”?
为什么说华为昇腾,是DeepSeek的“绝配”?
数据猿
2025-03-16
63
大数据产业创新服务媒体
——聚焦数据 · 改变商业
忽如一夜春风来,千树万树梨花开。
可以说,在大模型商用市场,DeepSeek就像那一阵春风,引爆了市场的热情。但是,当企业陆续接入DeepSeek后,也发现了不少亟需要解决的问题。
例如,某企业刚把DeepSeek接入算力集群,就发现推理速度比预期慢得多,算力消耗却惊人。他们尝试扩展硬件,却发现推理吞吐量并未同步提升,反而因为计算任务分配不均,部分计算卡爆满,而另一部分却在“摸鱼”。更棘手的是,卡间通信成了新瓶颈,海量的模型权重和数据在多个计算节点间频繁交换,导致系统时延直线上升。
算力成本飞涨,推理效率却没有突破——问题究竟出在哪里?
这家企业面临的困境,实际上是大模型商业化落地都会遇到的共同难题。DeepSeek的MoE(混合专家)架构让AI更智能,但要真正跑起来,需要高效的计算负载均衡和极速的卡间通信,而传统算力架构难以支撑。
那该怎么办?总不能就因为卡在算力上,把好不容易激发的大模型商用热情,就这样浇灭了吧?
DeepSeek+华为昇腾的组合,也许就是解决这个问题的钥匙。为什么这么说?让我们深入讨论一下这个问题。
技术摸高 vs. 工程创新
理想和面包全都要?
目前,人工智能的发展正在沿着两条路径并行推进:
一条是技术摸高,另一条是工程创新。
前者由OpenAI、Anthropic等头部企业主导,追求AGI、ASI,突破“智力”天花板。他们的策略是训练少量大专家模型,例如GPT-4.5,通过堆叠参数规模,让模型的泛化能力越来越强,最终希望构建一个能“无所不知、无所不能”的通用智能体。
但这条路的代价极为昂贵,每训练一次GPT-4.5级别的大模型,成本高达数亿美元,推理同样消耗巨大资源,这就导致在推理应用端定价偏高。企业要使用这样的大模型,不仅要为算力付出高昂代价,还要面对推理速度和成本之间的难以平衡。
另一条路则是工程创新,以DeepSeek为代表,他们的核心思路是让大模型计算更高效、推理更快、成本更低,真正推动产业落地。DeepSeek采用的MoE架构,就是一种对传统深度学习架构的优化,它让大模型从“一整块巨石”变成了“灵活的专家团队”,让AI推理更符合人脑的工作模式。
在传统的稠密模型(Dense Model)架构中,每一次推理,模型的所有参数都会被激活,所有计算层都会参与计算——这就像一个人面对问题时,无论简单还是复杂,都要调用整个大脑的全部区域,无差别地处理信息。显然,这是低效的。
但现实中,人脑并不是这样工作的。
例如,当我们阅读文章时,主要调动的是语言处理相关的脑区;当我们做数学计算时,更多调用的是逻辑推理的脑区;而在面对视觉信息时,则会激活视觉皮层……不同的大脑区域,在不同的任务中承担不同的计算职责,各司其职,高效协作,而不是让整个大脑无差别地运作。这种“分工协同”的神经机制,正是MoE架构的灵感来源。
MoE架构将大模型拆分为多个专家(Experts),每个专家都专注于处理特定类型的任务。当输入信息进入模型时,一个门控网络(Gating Network)会分析这个任务的特性,选择合适的几个专家进行计算,而其他专家则处于休眠状态,不会被激活。这样,每次推理都只调用一小部分参数,既减少了计算量,又提高了模型的推理速度。
这一架构的优势显而易见:
- 计算资源利用率更高:
每次推理只激活一部分专家,而不是让整个模型运行,避免算力浪费。
- 推理吞吐量更大:
多个专家并行计算,在相同算力条件下,推理速度远超传统稠密模型。
- 灵活扩展性更强:
MoE架
构允许企业按需增加或减少专家数量,适应不同规模、不同业务需求的AI应用。
需要指出的是,尽管MoE架构显著提升了大模型的计算效率,但要让它真正发挥作用,仍然面临一个关键难题:如何高效调度多个专家,使并行计算达到最大化?
这意味着,在MoE架构走向规模化落地的过程中,必须解决大规模专家并行(大EP)的计算挑战。
大EP很好
但有两头拦路虎
首先,我们需要搞清楚,大规模专家并行(大EP,Expert Parallelism)是什么。
在小规模MoE推理中,所有专家可能都运行在单个计算节点上,数据在同一张GPU或AI加速芯片上流转,计算效率高、通信开销小。
但当模型规模扩大、推理需求暴增,单机算力再强也不够用,必须把专家分散到多个计算卡甚至多个服务器上——这就是大规模专家并行(大EP)。
大EP的核心目标是:
- 让多个计算卡上的专家协同工作,避免单卡算力瓶颈,提高推理吞吐量。
- 减少不必要的计算冗余,让每张计算卡只负责自己该做的计算任务,不浪费资源。
- 降低推理时延,确保多计算卡协同推理时,延迟不会拖慢整体速度。
在理想状态下,大EP能让推理速度成倍提升,算力利用率大幅优化。但在现实应用中,大EP往往会遇到“分工不均、沟通不畅”两大难题——这就是负载均衡和卡间通信的挑战。
1. 负载均衡:如何让计算资源充分利用?
如果把MoE比作一个专家团队,那么负载均衡就是如何合理分配任务,让所有专家都能高效运作。
在MoE架构下,输入数据会先经过门控网络(Gating Network),决定该调用哪些专家进行推理。但在实际应用中,这个过程远比想象中复杂:
- 有些专家任务计算量大,处理速度慢;有些专家计算量小,处理速度快,导致部分计算卡过载,而部分计算卡处于低效状态。
- 数据分配不均,计算任务堆积,部分计算卡需要等待其他计算卡完成任务,整体推理速度被拖慢。
这就像是一个公司里,某些部门每天忙得焦头烂额,而另一些部门却在“摸鱼”——最终拖累的是整个公司的运转效率。
如果负载均衡没做好,系统会出现“木桶效应”:推理速度被最慢的计算卡决定,整体吞吐量下降,无法发挥大EP的并行计算优势。
2. 卡间通信:如何降低多节点数据传输的影响?
在单机模式下,模型参数、权重数据、计算结果可以在同一张计算卡上存取,数据流通快、延迟低。但在大EP架构下,多个计算卡要同时运行MoE专家,并且需要不断交换数据。这时候,通信成本迅速增加,并导致一系列后果:
- 权重数据传输慢:每张计算卡只存储部分模型权重,推理时需要频繁向其他计算卡请求缺失的参数,导致数据传输成为性能瓶颈。
- 计算等待时间长:如果一张计算卡上的专家需要依赖另一张计算卡上的计算结果,但网络通信速度跟不上,就会导致计算卡被迫等待数据,计算吞吐量下降。
- 卡间带宽限制:随着模型规模增大,计算卡之间的带宽压力激增,如果通信优化不到位,推理速度会被传输速率卡住,最终影响整体响应时间。
举个简单的例子:
想象一个远程团队协作项目,A部门需要B部门的数据才能继续工作,但B部门的网络太慢,每次发送文件都要等上好几分钟。结果A部门的任务被耽误,整个项目进度都受到影响。这种“数据传输慢导致计算效率低”的现象,正是大EP架构下常见的通信瓶颈。
如果卡间通信优化不到位,MoE架构在大EP环境下可能会出现“算力变多,反而吞吐下降”的尴尬局面——因为计算卡之间花了太多时间在“互相等待”而不是“高效计算”。
只有解决这两个问题,大EP才能真正成为大模型推理的最优解。
昇腾做了什么?
如果说MoE架构让大模型具备了“专家分工”的能力,那么要让这些专家真正高效协作,大EP就必须突破负载均衡和卡间通信的限制。
而这,正是华为昇腾的优化重点。
那么,昇腾到底做了什么?
MoE负载均衡:动态调度,避免“有人累死,有人闲着”
在MoE架构下,专家任务并不是平均分配的。有些专家特别“抢手”,每次推理都会被高频调用,而另一些专家则几乎无所事事。这就导致部分计算卡的负载严重超标,计算任务堆积,而其他计算卡却处于“待机”状态,整个系统的吞吐量被最慢的计算卡拖累,形成典型的“木桶效应”。
昇腾的优化思路很直接——动态专家调度,通过自动寻优、自动配比、自动预测等方式,实现MoE负载均衡。这就像一个经验丰富的项目经理,实时监测每个团队成员的任务量,合理分配工作,确保所有人都能高效运转。
PD分离部署:拆分流水线,计算和存储各司其职
大模型推理的两个核心阶段Prefill(填充)和Decode(解码),对资源的需求完全不同。Prefill阶段需要大量算力,而Decode阶段则更依赖访存,需要快速调用和存取数据。
传统架构将这两种任务混合在一起,导致计算资源和存储资源争抢,影响整体效率。昇腾采用自适应PD分离部署,让Prefill任务由高算力硬件处理,而Decode任务交给高存储带宽的硬件,可根据业务负载情况动态调整负责Prefill和Decode的硬件比例,并通过高速KV数据传输打通两者,使整个流程更加流畅。这样的优化,使系统吞吐量提升了50%,推理过程更加稳定。
双流/多维混合并行:计算与数据传输同时进行,不再“等来等去”
传统的计算模式通常是“先计算,再传输”——计算任务完成后,数据才开始传输。但这样做的问题是,计算完成后,系统要等待数据到位,才能进行下一步运算,造成了时间浪费。
昇腾采用的双流/多维混合并行优化策略,改变了这个模式:计算和数据传输同时进行,一个数据流在计算时,另一个数据流已经在传输下一个任务的数据,避免了不必要的等待时间。通过双流/多维混合并行,平均性能提升30%。
MLAPO融合算子:减少计算“拆分成本”,提升执行效率
在深度学习计算中,很多计算任务会被拆分成多个小算子依次执行。但这样做的问题是,每个算子运行时都会带来额外的内存占用和数据交换,导致计算流程变得繁琐,整体执行效率下降。
昇腾采用MLAPO融合算子技术,将多个小算子合并成一个大算子,让计算一步到位,减少中间环节,避免不必要的计算开销。
这相当于,把本来需要分开做的多个步骤合并成一个完整的操作,就像是在厨房里,一次性备好所有食材,而不是每做一步菜就要去拿一个新的配料,节省时间,提高效率。
优化的结果是,计算耗时降低了70%,推理任务执行得更加迅速。
原生适配MTP,自研解码算法:推理更快更智能
在大模型推理中,传统的解码方式是自回归解码,即每次只生成一个Token,然后再根据这个Token预测下一个Token,整个推理过程被一步步锁死,速度较慢。
昇腾通过MTP(多Token预测)优化,使得模型不仅预测下一个Token,还能同时预测多个Token,提升模型推理效率最大1.8X。此外,昇腾还自研了一种DraftDecoding(启发式解码)算法,突破了传统的逐步解码方式,使多个Token能够同时生成并行校验,提高生成效率。DraftDecoding优化后,多用户并发能力提升了2倍,进一步降低了解码延迟。
需要指出的是,这些优化并不是独立进行的,而是像一套精密的齿轮系统,相互协作,形成一个完整的推理优化链条。就像一个指挥得当的交响乐团,每个乐手都能在正确的时间演奏正确的音符,整场演奏才能流畅、和谐。
最终的结果是:
- 单卡推理吞吐量提升3倍,推理速度更快,处理能力更强。
- 显存占用降低3倍,在相同算力条件下,支持更多并发任务,推理成本更低。
- 解码时延降低50%+,响应更快,最终用户体验更优。
如果说MoE架构的“大EP”是大模型落地的关键一步,那么昇腾的优化就是让这一步真正稳健迈出的“推力”。更重要的是,这不仅仅是一次推理效率的提升,更是国产AI生态迈向大规模商用的重要一步。
我们正站在一个新时代的门口
想象一下,20年前,我们还在使用功能机,发短信要精打细算字数,上网需要拨号,而如今,智能手机已成为我们生活的延伸,一切信息、服务触手可及。
科技的每一次跃迁,都是从实验室走向现实,从概念变为生产力的过程。
而今天,我们正站在人工智能新时代的门口,见证着一场比移动互联网更深刻的变革。
如果把AI的发展比作一场接力赛,那么底层算力是起跑的力量,中间层模型是加速的关键,而上层应用则是最终冲刺的爆发点。在DeepSeek等国产大模型崛起的过程中,昇腾的算力突破,正在帮助AI产业形成完整的生态闭环。
一直以来,中国人工智能的核心短板之一就是算力瓶颈。
在大EP并行计算架构下,如果AI芯片存在性能瓶颈,则难以充分支持专家并行机制。例如,H20相对于H100性能有明显弱化,在高并发推理场景下可能会触及性能瓶颈。
为了解决这个问题,昇腾针对MoE架构进行了深度优化,在大规模推理任务中能够提供稳定的吞吐率,致力于为DeepSeek等国产大模型提供强有力的算力支撑。
在这个基础上,DeepSeek等国产MoE大模型的兴起,标志着中国AI技术路线的重大变革。传统的稠密模型(如GPT-3)要求高算力、高显存、长序列计算,而MoE架构通过“智能分配专家”机制,大幅降低了计算负担,使得单卡算力的要求不再那么苛刻。这不仅让DeepSeek的训练和推理更加经济高效,同时也使其能够适配更多国产算力方案,避免对国外硬件的依赖。
而最重要的是上层行业应用的爆发,随着国产算力和大模型的成熟,AI正在加速进入实际应用场景:金融行业,智能风控、量化交易、自动化客户服务,AI帮助银行实时监测风险、优化投资策略,提高运营效率;政务服务,政务智能问答、法律咨询、文档自动化处理,AI提升政务服务的智能化水平,优化资源配置;医疗健康,医学辅助诊断、药物研发、精准医疗分析,AI助力医生提高诊断效率,同时加速新药研发进程;制造与能源,智能制造、智能电网优化、设备预测维护,AI帮助企业提升生产效率,降低能源消耗。
可以看到,AI生态已经从“概念验证”阶段,进入了“规模化应用”阶段。从昇腾的硬件突破,到DeepSeek的算法优化,再到行业落地,一个全新的AI产业链正在形成。
预计未来2-3年内,DeepSeek等大模型将在金融、电力、政务、医疗等领域形成大规模商用,推动整个AI产业的升级。从根本上解决算力短缺问题,构建一个繁荣的AI技术生态,成为中国AI产业的核心任务。
历史的车轮滚滚向前,AI变革的浪潮已经汹涌而至。我们,已经在路上!
文:月满西楼
/
数据猿
责编:凝视深空
/
数据猿
>往期好文推荐
数势科技黎科峰:DeepSeek 引爆数据分析“奇点”,创造普惠化新机遇丨数据猿专访
硅基角斗场:中国AI人才的暗战与突围
DeepSeek要掀数据存储的“桌子”?
架构
通信
推理
moe
文章转载自
数据猿
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨