算力提升10,000,000倍，LAXCUS的星辰大海：全国算力一张网的千万卡集群

LAXCUS分布式操作系统 2024-07-01

有客户咨询：“万卡集群，Laxcus分布式操作系统能不能支持？”，说句不怕张扬的话，不要说万卡的算力集群，就是千万卡的算力集群，Laxcus分布式操作系统都能支持。万卡集群，只是Laxcus星辰大海的一个小目标，Laxcus分布式操作系统的对齐方向，是微软“星空之门”，或者马斯克“超级算力工厂”这样的超大规模的分布式的AI算力集群。在中国，是希望能够把全国的算力中心连接到一起，实现“全国算力一张网”。在此基础上，实现计算机集群资源和算力的统一管理分配调度，最大化提高计算效率，减少能源消耗，赋能AI和算力应用产业。要问Laxcus分布式操作系统是怎么做到的，本篇不讨论AI Infra涉及的各种硬件设备和基建的问题，只从软件角度，来说说如何实现一个千万卡的算力集群，以及在千万卡算力集群上实施超大规模分布式并行计算。

要理解Laxcus为什么能够支持万卡算力集群，乃至千万卡的AI算力集群，和如何实施执行超大规模分布式并行计算工作的，需要了解以下三个关键概念：

1. 单机操作系统、多机操作系统

2. 单域集群、多域集群

3. 聚合计算

一、单机操作系统、多机操作系统

Laxcus是全球第一个双模态的操作系统，所谓双模态，就是他拥有两个身份：单机操作系统和多机操作系统的双重身份。

如果用户只有一台服务器或者计算机，并且将Laxcus作为普通的服务器操作系统使用时，这时Laxcus就是单机操作系统。处于单机操作系统状态时，Laxcus兼容Linux，所有基于Linux的应用软件，都可以在Laxcus上正常运行。所以在单机状态下，你可以把Laxcus当成Linux来使用。

如果用户有很多的服务器或者计算机，需要庞大的算力支撑自己的计算工作，运行AI、HPC等大算力业务时，并基于每个节点完成联网组网的工作，这里Laxcus就化身成为多机操作系统。

在多机模式状态下，Laxcus完成了一件其它操作系统都不具备的能力：资源聚合。即通过对计算资源的重组，在硬件层而，把一个计算机集群的多台计算机，或者N个计算机集群的N多台计算机，连接起来形成一个巨大的算力巨阵。而在软件层面，通过一系列技术措施，这些计算机被虚拟成为一台单一的“超级计算机”。事实上，这是一个新的计算形态：无论一个计算机集群，或者N个计算机集群，有多少台计算机，在人机交互和编程开发的软件层面，都是一台计算机。这项技术，用通俗语言来说，就是计算机集群的虚拟单一化。

由于Laxcus分布式操作系统通过集群虚拟单一化，事实上把一堆物理的硬件的计算机，变成一台虚拟的软件的“超级计算机”，基于这样一台超级计算机，就可以简化集群管理运维，降低算力应用软件的编程开发难度，提高计算效率，和用户的操作成本等一系列问题。

Laxcus多机操作系统实现的集群虚拟单一化，是对传统计算范式的一次彻底和根本性的颠覆。

这就是Laxcus做为双模态操作系统的基础情况。

Laxcus分布式操作系统可以在单机模式和多机模式之间自由切换

二、单域集群、多域集群

首先需要解释一下“域”这个概念。

“域”是Laxcus分布式操作系统定义的一个计算机集群单位。集中部署在一个物理的算力中心，或者一个IDC机房里，并且用网络连接起来的计算机，它们属于“一个域”。如果分散的多个物理的算力中心，或者多个IDC机房，之间用网络连接起来的计算机，它们属于“多个域”。

在研发初期，Laxcus分布式操作系统在多机操作系统之上，只支持“单域集群”。后来由于算力需求的突飞猛时，为了支持 “全国算力一张网”，和微软“星空之门”、马斯克“超级算力工作”这样的超大规模AI算力集群。Laxcus分布式操作系统在“单域集群”基础上，进一步做了技术延伸，完成了对“多域集群”的设计，现在Laxcus分布式操作系统已经是支持“多域集群”的操作系统。

根据实地测试，在IB网络的单域状态下，Laxcus分布式操作系统7.0可以支持高达8,000-10,000+的计算节点。如果是IB网络的多域状态下，Laxcus分布式操作系统7.0支持超1,000,000+的计算节点。若以目前国内HGX服务器，一台服务器配备8张算力卡计算，在一个单域集群里，Laxcus分布式操作系统的支持能力，就能够接近或者达到10万张算力卡的规模，如果是分布式的多域集群，就是千万张算力卡的支持规模。

这就是为什么说，万卡集群是Laxcus分布式操作系统星辰大海的一个小目标，也是为什么说，Laxcus分布式操作系统能够支持千万卡算力集群的底气的原因。

为了支持超大规模的算力集群，Laxcus分布式操作系统在研发过程，完成了大量基础技术的创新，比如松耦合架构、自适应机制、冗余容错、智能感知、变循环追踪操作等。这些技术内容，有必要的时候再开一篇来讲，本篇就不细说了。

无论是单域集群还是多域集群，通过Laxcus分布式操作系统的资源聚合，呈现在用户面前的，都是一台计算机！

三、聚合计算

聚合计算是资源聚合的具象化技术实现。如果把Laxcus分布式操作系统比喻成一家公司，那么多机操作系统的角色，就像是公司的董事长和董事会，主要制定工作目标和监督工作执行情况，而聚合计算更像是公司的CEO，负责执行和完成董事长和董事会下达的工作内容。

聚合计算不是一个单项技术，而是一系列基础技术的创新和集成。它包含了大量的指令、框架、函数库、功能模块、管理模块，你把它可以理解为虚拟化的反向操作。虚拟化是将一台物理的计算机，拆分成多台逻辑的虚拟计算机，然后分配给多个用户共同使用，从而达到降本增效，提高运营商收入的目的。而聚合计算通过对计算资源的重组，把大量的计算机组合成一台逻辑的“超级计算机”，再分配给用户，使用户能够更集中更便捷更高效地使用计算资源。

经过聚合计算处理后，计算机集群里所有的硬件资源，包括CPU、GPU、DPU、内存、磁盘、网络，都被整合到一起。在分散的计算机集群中，它们以松耦合和弱连接的方式，形成一个逻辑整体。当计算业务需要时，聚合计算通过对这些硬件资源的调度和分配，辅助计算业务执行大规模分布式的并行计算工作。

聚合计算的主要服务对象是应用软件的编程开发人员。长久以来，程序员们已经习惯了基于单机环境的串行计算编程，而对于新的多机环境下的并行计算编程，由于多机环境本身的复杂性和开发难度，普通的程序员很难学习和适应。聚合计算最核心的工作就是把多机并行计算编程，从逻辑上变回单机串行计算编程，而多机环境中的网络通信、资源调配、分布式、并行计算作业流程，全部被封装起来，以传统的串行函数编程接口形式提供给开发者，把多机并行计算的编程开发难度，降到串行计算编程开发相同的维度，从根本上解决多机并行计算体系复杂高、编程困难，以及多机分布式应用软件的运行可靠性、稳定性的一系列问题。

由于分布式计算、并行计算涉及大量的计算节点，节点之间协同和计算过程，资源分配和调度的过程十分复杂，聚合计算在应用层面，进行了反向操作，把它极简化，完成了“从N到1”的计算。通过对计算机集群的虚拟单一化，将大量与分布式计算、并行计算的工作封装起来，对外形成一个软件的逻辑单一的“超级计算机”，以人机交互界面和API接口的形式，展示给用户和应用软件开发者使用。进一步，后续将完成聚合计算的标准化和通用化，把超大规模算力集群降低到单机服务器一样的维度，彻底解决计算机集群管理难度大，分布式算力应用软件开发复杂和成本高问题。

聚合计算是一系列基础技术的创新和集成，以上是其涉及的一些关键核心技术

从单机操作系统到多机操作系统，从单域集群到多域集群，从万卡集群到千万卡集群，Laxcus分布式操作系统已经完成了技术层面的基础设计和验证，正在进行紧张的产品开发。Laxcus分布式操作系统作为一项新质生产力，大幅度简化和降低了运维管理算力集群、开发大规模算力应用、使用大规模算力应用的难度，从根本上颠覆了传统的计算范式，为实现“全国算力一张网”，为即将到来的通用人工智能全面商用落地普及，为重构计算体系，创造新的计算市场，引领新一轮产业革命，打下坚实基础！

LAXCUS分布式操作系统研发团队正在扩招中，岗位包括：技术合伙人、项目主管、核心开发人员，公司提供了丰厚的股权和期权奖励，欢迎“有想法”和“不安分”的小伙伴联系我们，加入LAXCUS分布式操作系统研发团队，抓住AI和算力互联网发展浪潮红利！

技术探讨长按此微信号

股权商务合作长按此微信号

分布式架构计算机操作系统分布式处理并行计算集群服务器

文章转载自LAXCUS分布式操作系统，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

算力提升10,000,000倍，LAXCUS的星辰大海：全国算力一张网的千万卡集群

评论

相关阅读