暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

算力提升10,000,000倍,LAXCUS的星辰大海:全国算力一张网的千万卡集群

有客户咨询:“万卡集群,Laxcus分布式操作系统能不能支持?”,说句不怕张扬的话,不要说万卡的算力集群,就是千万卡的算力集群,Laxcus分布式操作系统都能支持。万卡集群,只是Laxcus星辰大海的一个小目标,Laxcus分布式操作系统的对齐方向,是微软“星空之门”,或者马斯克“超级算力工厂”这样的超大规模的分布式AI算力集群。在中国,是希望能够把全国的算力中心连接到一起,实现“全国算力一张网”。在此基础上,实现计算机集群资源和算力的统一管理分配调度,最大化提高计算效率,减少能源消耗,赋能AI和算力应用产业。要问Laxcus分布式操作系统是怎么做到的,本篇不讨论AI Infra涉及的各种硬件设备和基建的问题,只从软件角度,来说说如何实现一个千万卡的算力集群,以及在千万卡算力集群上实施超大规模分布式并行计算。

要理解Laxcus为什么能够支持万卡算力集群,乃至千万卡的AI算力集群,和如何实施执行超大规模分布式并行计算工作的,需要了解以下三个关键概念:

1. 单机操作系统、多机操作系统

2. 单域集群、多域集群

3. 聚合计算    

          

一、单机操作系统、多机操作系统

Laxcus是全球第一个双模态的操作系统,所谓双模态,就是他拥有两个身份:单机操作系统多机操作系统的双重身份。

如果用户只有一台服务器或者计算机,并且将Laxcus作为普通的服务器操作系统使用时,这时Laxcus就是单机操作系统处于单机操作系统状态时,Laxcus兼容Linux,所有基于Linux的应用软件,都可以在Laxcus上正常运行所以在单机状态下,你可以把Laxcus当成Linux来使用。

如果用户有很多的服务器或者计算机,需要庞大的算力支撑自己的计算工作,运行AI、HPC等算力业务时,并基于每个节点完成联网组网的工作,这里Laxcus就化身成为多机操作系统。

在多机模式状态下,Laxcus完成了一件其它操作系统都不具备的能力:资源聚合。通过对计算资源的重组,在硬件层而,把一个计算机集群的多台计算机,或者N个计算机集群的N多台计算机,连接起来形成一个巨大的算力巨阵。在软件层面,通过一系列技术措施,这些计算机被虚拟成为一台单一的“超级计算机”。事实上,一个新的计算形态:无论一个计算机集群,或者N个计算机集群,有多少台计算机,在人机交互和编程开发的软件层面,都是一台计算机这项技术,用通俗语言来说,就是计算机集群的虚拟单一化。

由于Laxcus分布式操作系统通过集群虚拟单一化,事实上把一堆物理的硬件的计算机,变成一台虚拟的软件的“超级计算机”,基于这样一台超级计算机,就可以简化集群管理运维,降低算力应用软件的编程开发难度,提高计算效率,和用户的操作成本等一系列问题

Laxcus多机操作系统实现的集群虚拟单一化,是对传统计算范式的一次彻底和根本性的颠覆。    

这就是Laxcus做为双模态操作系统的基础情况。

Laxcus分布式操作系统可以在单机模式和多机模式之间自由切换

          

二、单域集群、多域集群

首先需要解释一下“域”这个概念。

“域”是Laxcus分布式操作系统定义的一个计算机集群单位。集中部署在一个物理的算力中心,或者一个IDC机房里,并且用网络连接起来的计算机,它们属于“一个域”。如果分散的多个物理的算力中心,或者多个IDC机房,之间用网络连接起来的计算机,它们属于“多个域”。

在研发初期,Laxcus分布式操作系统在多机操作系统之上,只支持“单域集群”。后来由于算力需求的突飞猛时,为了支持 “全国算力一张网”,和微软“星空之门”、马斯克“超级算力工作”这样的超大规模AI算力集群。Laxcus分布式操作系统在“单域集群”基础上,进一步做了技术延伸,完成了对“多域集群”的设计,现在Laxcus分布式操作系统已经是支持“多域集群”的操作系统。

根据实地测试,IB网络的单域状态下,Laxcus分布式操作系统7.0可以支持高达8,000-10,000+的计算节点。如果是IB网络的多域状态下,Laxcus分布式操作系统7.0支持超1,000,000+的计算节点。若以目前国内HGX服务器,一台服务器配备8张算力卡计算,在一个单域集群里,Laxcus分布式操作系统的支持能力,就能够接近或者达到10万张算力卡的规模,如果是分布式的多域集群,就千万算力卡的支持规模    

这就是为什么说,万卡集群是Laxcus分布式操作系统星辰大海的一个小目标,也是为什么说,Laxcus分布式操作系统能够支持千万卡算力集群的底气的原因。

为了支持超大规模的算力集群,Laxcus分布式操作系统在研发过程,完成了大量基础技术创新,比如松耦合架构、自适应机制、冗余容错、智能感知、变循环追踪操作等。这技术内容,有必要的时候再开一篇来讲,本篇就不细说了。

无论是单域集群还是多域集群,通过Laxcus分布式操作系统的资源聚合,呈现在用户面前的,都是一台计算机!

          

三、聚合计算

聚合计算是资源聚合的具象化技术实现。如果把Laxcus分布式操作系统比喻成一家公司,那么多机操作系统的角色,就像是公司的董事长和董事会,主要制定工作目标和监督工作执行情况,而聚合计算更像是公司的CEO,负责执行和完成董事长和董事会下达的工作内容。

聚合计算不是一个单项技术,而是一系列基础技术的创新和集成包含了大量的指令、框架、函数库、功能模块、管理模块,你把它可以理解为虚拟化的反向操作。虚拟化是将一台物理的计算机,拆分成多台逻辑的虚拟计算机,然后分配给多个用户共同使用,从而达到降本增效,提高运营商收入的目的。而聚合计算通过对计算资源的重组,把大量的计算机组合成一台逻辑的“超级计算机”,再分配给用户,使用户能够更集中更便捷更高效地使用计算资源。    

经过聚合计算处理后,计算机集群里所有的硬件资源,包括CPU、GPU、DPU、内存、磁盘、网络,都被整合到一起在分散的计算机集群中,它们以松耦合和弱连接的方式,形成一个逻辑整体。当计算业务需要时,聚合计算通过对这些硬件资源的调度和分配,辅助计算业务执行大规模分布式的并行计算工作。

聚合计算的主要服务对象是应用软件的编程开发人员。长久以来,程序员们已经习惯了基于单机环境的串行计算编程,而对于新的多机环境下的并行计算编程,由于多机环境本身的复杂性和开发难度,普通的程序员很难学习和适应。聚合计算最核心的工作就是把多机并行计算编程,从逻辑上变回单机串行计算编程,而多机环境中的网络通信、资源调配、分布式、并行计算作业流程,全部被封装起来,以传统的串行函数编程接口形式提供给开发者,把多机并行计算的编程开发难度,降到串行计算编程开发相同的维度,从根本上解决多机并行计算体系复杂高、编程困难,以及多机分布式应用软件的运行可靠性、稳定性的一系列问题。

由于分布式计算、并行计算涉及大量的计算节点,节点之间协同和计算过程,资源分配和调度的过程十分复杂,聚合计算在应用层面,进行了反向操作,把它极简化,完成了“从N到1”的计算通过对计算机集群的虚拟单一化,将大量与分布式计算、并行计算的工作封装起来,对外形成一个软件的逻辑单一的“超级计算机”,以人机交互界面和API接口的形式,展示给用户和应用软件开发者使用。进一步,后续将完成聚合计算的标准化和通用化,把超大规模算力集群降低到单机服务器一样的维度,彻底解决计算机集群管理难度大,分布式算力应用软件开发复杂和成本高问题    

聚合计算是一系列基础技术的创新和集成,以上是其涉及的一些关键核心技术

从单机操作系统到多机操作系统,从单域集群到多域集群,从万卡集群到千万卡集群,Laxcus分布式操作系统已经完成了技术层面基础设计和验证,正在进行紧张的产品开发。Laxcus分布式操作系统作为一项新质生产力,大幅度简化和降低了运维管理算力集群、开发大规模算力应用、使用大规模算力应用的难度,从根本上颠覆了传统的计算范式,实现“全国算力一张”,为即将到来的通用人工智能全面商用落地普及,为重构计算体系,创造新的计算市场,引领新一轮产业革命,打下坚实基础!

          

LAXCUS分布式操作系统研发团队正在扩招中,岗位包括技术合伙人、项目主管、核心开人员,公司提供了丰厚的股权和期权奖励,欢迎“有想法”和“不安分”的小伙伴联系我,加入LAXCUS分布式操作系统研发团队,抓住AI和算力互联网发展浪潮红利!

          

技术探讨长按此微信号    

股权商务合作长按此微信号

              

文章转载自LAXCUS分布式操作系统,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论