
NVIDIA GTC大会于近期召开,不同规模的企业正处于其人工智能发展的关键时刻。如今,问题已不在于是否要采用生成式AI,而在于如何将这些充满潜力的试点项目,转化为能够创造实际商业价值的生产系统。能够率先解决这一难题的企业,将占据明显竞争优势,并且实践中已经涌现一批极具说服力的成功案例。
当医生、护士及其他临床医护人员正饱受前所未有的职业倦怠之苦时,Hippocratic AI公司正积极投身于研发AI临床助手,为医疗团队提供有力支援。在佛罗里达州近期发生的一场飓风灾害中,该公司的系统成功地在一天内致电10万名患者,询问其用药情况,并提供预防性医疗指导。这种协调一致的外联服务,几乎不可能通过人工方式实现。Hippocratic AI绝非仅仅局限于开发另一个聊天机器人,而是在重新构想并推动大规模医疗保健服务的革新。
要让人工智能真正服务于生产,仅仅依赖前沿模型或强大的GPU远远不够。在与客户合作探索数据领域的十年间,亚马逊云科技数据和人工智能GTM副总裁Rahul Pathak深刻认识到,任何企业最宝贵的资产莫过于其领域特有的数据和专业知识。作为数据和AI产品市场推广的领导者,Rahul Pathak经常收到客户反馈,希望将其领域优势转化为在AI领域的成功,而这需要值得客户信赖的基础设施和服务,这些设施和服务需具备性能优势、成本效益、安全性和灵活性,并且能够大规模交付。
当利害关系重大时,成功不仅取决于前沿技术,还取决于能否将其大规模投入运营,而亚马逊云科技始终致力于为客户解决这一挑战。作为全球极为全面且应用广泛的云计算服务,亚马逊云科技与NVIDIA携手为生成式AI建立的开创性加速计算平台,进一步强化了这一能力。对于能够共同助力各行各业的客户自信地将AI应用于生产,亚马逊云科技深感振奋。

本文将分享一些客户的非凡历程,为希望利用生成式AI力量的企业提供实用见解。
生成式AI重构内容创作范式
内容创作是当今生成式AI最广泛、最直接的应用场景之一。Adobe作为四十多年来塑造创意工作流程的先驱,已迅速采取行动,在其旗舰产品中集成生成式AI,帮助数百万创作者以全新方式进行创作。
正如Adobe生成式AI副总裁Alexandru Costin所言,Adobe在构建生成式AI基础设施方面的策略,堪称“AI高速公路”理念的典范,这一先进的技术基础能够支持AI模型快速迭代,并无缝集成至创意应用程序中。Photoshop等旗舰产品中的Firefly系列生成式AI模型的成功,充分展示了这一策略的强大威力。
在处理AI训练和推理工作负载方面,Adobe采用了NVIDIA GPU加速Amazon EC2 P5en实例(配备NVIDIA H200 GPU)、P5实例(配备NVIDIA H100 GPU)、P4de实例(配备NVIDIA A100 GPU)和G5实例(配备NVIDIA A10G GPU)。
Adobe还使用如NVIDIA TensorRT、NVIDIA Triton Inference Server等NVIDIA软件,以实现更快、可扩展的推理。Adobe需要最大限度地灵活构建其AI基础设施,而亚马逊云科技提供了所需的一站式服务,包括用于高性能存储的Amazon FSx for Lustre、用于容器编排的Amazon EKS、用于高吞吐量网络的Amazon EFA,从而创建能够为数百万创意专业人士提供可靠服务的生产环境。
重要启示
如果您正在着手构建和管理自有AI流程,不妨从Adobe的成功中汲取关键启示:GPU加速计算在AI基础设施中常占据焦点,但NVIDIA软件栈及其所依托的编排、存储和网络服务基础同样至关重要,它们共同为生产级AI的部署提供了坚实支撑。Adobe的成果便是明证,其在保持企业级性能和可靠性的同时,实现模型训练规模增长20倍。
从零构建突破性AI应用
勇于接受艰巨挑战、致力于根本性变革而非微小改变的初创公司,总能让Rahul Pathak充满动力。Perplexity正是这些初创公司中的典范,该公司挑战的是现在大多数人习以为常的技术:搜索。这一挑战不仅因其大胆的远见卓识而令Rahul Pathak振奋,更因其所带来的巨大技术挑战而让人着迷。当用户每月处理3.4亿次查询、为超过1500家企业提供服务时,改进搜索不再是单纯依靠好创意,而是需要构建强大且可扩展的系统,以确保在生产环境中持续提供稳定性能。
Perplexity凭借其创新策略,成功跻身Amazon Activate和NVIDIA Inception,这是旨在加速初创企业创新与成功步伐的两大旗舰计划,为Perplexity提供了构建大规模业务不可或缺的资源、技术指导及全方位支持。
作为Amazon SageMaker HyperPod的早期采用者之一,Perplexity持续利用其分布式训练功能,将模型训练时间缩短多达40%。Perplexity使用基于NVIDIA TensorRT-LLM和NVIDIA Triton Inference Server构建的高度优化的推理堆栈,为其搜索应用和pplx-api(即向开发者开放其专有模型的公共API服务)提供支持。
成果显而易见,其推理堆栈相比其他平台,延迟降低了3.1倍。其训练和推理工作负载均在NVIDIA GPU加速的Amazon EC2 P5实例上运行,确保了大规模运营所需的高性能和可靠性。为了给用户提供更多灵活性,Perplexity使用Amazon Bedrock等服务丰富自有模型库,并在其API中提供访问其他更多前沿模型的途径。Amazon Bedrock的易用性和可靠性对Perplexity团队至关重要,正如他们所言,Amazon Bedrock使他们能够有效保持产品所需的可靠性和低延迟。
Perplexity的发展历程中,尤为引人注目的是他们对于卓越技术的执着追求,这在他们通过EFA网络技术优化GPU内存传输的工作中,得到了淋漓尽致的展现。Perplexity不仅实现了3200 Gbps理论最大带宽的97.1%,并且将其创新成果开源,让其他组织也能从中受益。
有关技术细节信息,请参阅文章《迈向3200 Gbps:在Amazon Sagemaker Hyperpod上实现高性能GPU内存传输》。
《迈向3200 Gbps:在Amazon Sagemaker Hyperpod上实现高性能GPU内存传输》:
https://www.perplexity.ai/hub/blog/high-performance-gpu-memory-transfer-on-aws
重要启示
对于拥有复杂AI工作负载和特定性能要求的企业而言,Perplexity的实践无疑提供了宝贵经验。很多情况下,打造生产级别的AI系统,并非是要选择自建基础设施和托管服务其中之一,而是要巧妙地将两者结合运用。这种融合策略既能实现卓越性能(Perplexity延迟降低3.1倍便是明证),又能赋予系统持续优化的灵活性。
使用AI重塑企业工作流程
企业工作流程是业务运营的中流砥柱,也是检验AI能否迅速创造业务价值的关键试验场。自称为业务转型AI平台的ServiceNow,正在迅速集成AI技术,大规模重塑核心业务流程。
ServiceNow的创新型AI解决方案,彰显出其对于为企业量身定制AI优化的愿景。正如ServiceNow副总裁Srinivas Sunkara所言,他们的方法侧重于将AI深度集成到技术工作流程、核心业务流程和CRM系统之中,这些往往正是传统大语言模型(LLM)所缺乏行业专业知识的领域。
为了在企业级规模上训练生成式AI模型,ServiceNow通过亚马逊云科技服务的NVIDIA DGX Cloud,其架构将用于高性能存储的Amazon FSx for Lustre与NVIDIA GPU集群训练相结合,并使用NVIDIA Triton Inference Server进行生产部署。这一强大的技术平台使ServiceNow能够专注于特定领域的AI开发和提升客户价值之上,而非基础设施管理。
重要启示
ServiceNow为企业应用AI提供了重要启示:虽然基础模型(FMs)提供了强大的通用功能,但最重要的商业价值,往往源于针对特定企业用例和工作流程来优化模型。许多时候,正是这种针对性的专业优化,让AI从一项有趣的技术转变为真正的业务增长引擎。
在企业应用中扩展AI应用范围
Cisco的Webex团队在生成式AI领域的探索之旅,生动诠释了大型企业如何在保持企业可靠性与效率标准的同时,有条不紊地推动应用革新。他们向全球客户提供一套全面的电信应用服务,因此需要找到一种方案,使其能够在不影响性能或增加运营复杂性的前提下,将LLM融入其涵盖从AI助手到语音识别的产品线中。
Webex团队的关键策略在于将模型与应用分离。此前他们曾将AI模型嵌入到运行在Amazon EKS上的应用程序的容器镜像中,但随着模型的复杂程度和规模不断增长,这种方法越来越低效。于是他们将LLM迁移到Amazon SageMaker AI,并使用NVIDIA Triton Inference Server,从而将相对精简的应用与需要更多计算资源的底层模型分离。这种分离使应用和模型可以独立扩展,显著缩短了开发周期,并提高了资源利用率。
Webex团队在Amazon SageMaker AI端点上部署了数十个模型,利用Triton Inference Server的模型并发功能,实现了可在全球范围内的亚马逊云科技数据中心进行扩展。
这些成果充分证明了Cisco在AI转型过程中所采取策略的正确性。通过将应用与模型分离,其开发团队现在可以更快修复应用漏洞、进行测试以及添加应用功能,而无需管理工作站内存中的大模型。此外,该架构还实现成本显著优化:应用可在非高峰时段继续运行可用,以确保可靠性,同时模型端点在无需使用时会缩减规模,且这一切均不会影响应用性能。
展望未来,该团队正在评估引入Amazon Bedrock,以期进一步提升其性价比,这充分表明了深思熟虑的架构决策如何为持续优化奠定坚实基础。
重要启示
对于拥有众多应用组合并希望大规模集成AI的企而言,Cisco的策略提供了宝贵经验:将LLM与应用分离,可以形成更加清晰的架构边界,从而加快开发速度,并实现更优的成本效益。通过将模型与应用视为独立单元,Cisco不仅大幅缩短开发周期,也还通过提高资源利用效率降低成本。
为医疗健康领域构建关键任务型AI
前文介绍了Hippocratic AI如何在危机期间惠及10万患者,这一成就背后是在确保安全性和可靠性方面所投入的严谨细致的工程技术努力,而这对于医疗健康这一高风险领域尤为重要。
Hippocratic AI在应对这一挑战时,展现出创新力与严谨性。他们开创性地构建了一套名为“星座架构”的复杂系统,其囊括20多个协同工作的专业模型,每个模型都专注于特定安全领域,如用药依从性、实验室结果分析以及非处方药指导等。采用这种分布式安全策略,意味着他们必须训练大量模型,这对计算资源的管理提出了极高要求。为此,他们选择了Amazon SageMaker HyperPod作为其训练基础架构的核心,并借助Amazon FSx和Amazon S3为NVIDIA GPU提供高速数据存储访问,同时,Amazon Managed Grafana和Amazon Managed Service for Prometheus则负责提供全面的监控服务,确保GPU资源得到最优化利用。
基于NVIDIA低延迟推理堆栈,Hippocratic AI进一步通过NVIDIA Riva模型增强对话式AI能力,实现了语音识别和文本转语音的翻译功能,并运用NVIDIA NIM微服务来部署这些模型。
鉴于医疗健康数据的敏感性和HIPAA合规性的严格要求,Hippocratic AI在亚马逊云科技上部署了一套复杂的多账户、多集群策略,确保开发和训练环境与处理患者数据生产推理工作负载,均各自在完全独立的账户和集群上运行。Hippocratic AI对安全性和性能的高度关注,使他们能够高效处理数千次患者交互,同时始终严格把控临床安全性和准确性。
Hippocratic AI的贡献,其意义远超越技术层面的突破。他们推出的生成式AI驱动的临床助手,有效减轻了医护人员因处理繁琐行政工作(从术前准备到出院后随访)而产生的身心疲惫。例如,在极端天气条件下,该系统能够迅速评估高温所带来的风险,并及时为需要特别关照的患者调配交通工具。如此周全的关怀举措,若单凭人力进行大规模协调,不仅实施难度极大,而且将会消耗巨量资源。
重要启示
对于在复杂多变、监管严格且风险较高的环境中,构建AI解决方案的企业而言,Hippocratic AI的星座架构再次有力印证了亚马逊云科技始终秉持的观点:几乎不存在一种能够完美适配所有应用场景的通用模型。正如Amazon Bedrock通过提供多样化的模型选项来满足不同需求一样,Hippocratic AI通过集成20多个专注于特定安全领域的专业模型,生动诠释了如何通过一个精心设计的模型组合,在提升精准度的同时,实现规模扩展。
总 结
亚马逊云科技与NVIDIA作为推动客户创新的技术伙伴,持续携手并进,不断满足生成式AI时代的发展需求。回溯至14年前,双方的合作以推出全球首个GPU云实例为起点。时至今日,这一合作关系已发展为提供业界领先的NVIDIA加速计算解决方案和软件服务体系,旨在优化AI应用的部署。
以Ceiba项目为例,其依托亚马逊云科技服务,采用NVIDIA DGX Cloud构建,成为全球运行速度极快的AI超级计算机,专供NVIDIA内部研发使用。亚马逊云科技与NVIDIA将通过诸如Ceiba项目等前沿实践,不断突破技术极限,探索前所未有的可能。
从本文列举的诸多实例中不难发现,这一切的意义远不止于亚马逊云科技与NVIDIA携手共创的技术本身,更在于不同规模的组织如何利用这些技术,推动各自领域的革新,从而开辟前所未有的可能性。
这些生动案例深刻揭示了一个深刻道理:一旦将强大且可靠的AI能力推广至大众,人们总能发掘出卓越的方式来应对各种重要问题。这正是亚马逊云科技与NVIDIA合作的真正价值所在:助力创新者实现大规模的积极变革。亚马逊云科技对于继续与NVIDIA携手创新与合作充满期待,也热切盼望见证双方共同客户未来所创造的辉煌。

资源
有关亚马逊云科技与NVIDIA的合作关系,以及在亚马逊云科技上开展生成式AI构建的更多信息,请参阅以下资源。
了解亚马逊云科技与NVIDIA的合作伙伴关系:
https://aws.amazon.com/nvidia/
探索亚马逊云科技上的生成式AI:
https://aws.amazon.com/generative-ai/
通过适用于机器学习的Amazon EC2容量块,在多个新的亚马逊云科技区域中经济高效地访问NVIDIA GPU:
https://aws.amazon.com/ec2/capacityblocks/pricing/
使用Amazon SageMaker HyperPod进行生成式AI模型开发:
https://aws.amazon.com/sagemaker-ai/hyperpod/
使用Amazon Bedrock构建和扩展生成式AI应用程序:
https://aws.amazon.com/bedrock/
本篇作者
Rahul Pathak
亚马逊云科技数据和人工智能GTM副总裁,领导全球市场推广和专家团队,帮助客户利用亚马逊云科技的生成式AI(如 Amazon Bedrock、Amazon Q、Amazon SageMaker和Amazon EC2)以及数据服务(如Amazon S3、Amazon Glue和Amazon Redshift)创造差异化价值。Rahul认为,生成式AI将改变几乎所有的客户体验,而数据是客户构建人工智能应用的关键差异化因素。在担任现职之前,他曾担任关系数据库引擎业务副总裁,负责领导Amazon Aurora、Amazon Redshift和Amazon Aurora DSQL的发展。在亚马逊云科技工作的13年间,Rahul始终致力于推出、构建和发展托管数据库和分析服务,帮助客户能够轻松从数据中获取价值。













期待你的分享 收藏 在看 点赞!
亚马逊的一小步,云计算的一大步!

点击阅读原文,获取更多精彩内容!