之前在多篇介绍Laxcus分布式操作系统的文章里,都提到过聚合计算,但是和其它内容混合在一起讲的,今天应一位用户的要求,专门开一篇,展开讲一讲聚合计算,以及我们面对AI大算力业务,为什么需要聚合计算。
聚合计算之于Laxcus分布式操作系统非常重要,它是Laxcus分布式操作系统的核心基础功能。简单来说,聚合计算就是借助网络,把一堆分散的物理的硬件计算机连接组织起来,形成一台集中的虚拟的软件的“超级计算机”,并基于这台像一台计算机的“超级计算机”,处理超大规模的存储和计算工作,比如AI、HPC、大数据这类严重依赖算力和存储的计算业务。想象一下,如果你有10,000台电脑甚至更多的候时,它们分散在不同的物理空间,然后被网络连接起来,合体变成一台超级强大的电脑,你操作它就像是使用Windows、Linux操作系统一样,但是计算能力呈现数万倍的跃升,这该是怎么样的一种体验?
相比虚拟化软件(eg:VMWare),把1台物理计算机变成N台逻辑计算机,实现对计算资源“从1到N”的分割 ,聚合计算是虚拟化的反向操作,把N台物理计算机变成1台逻辑计算机,完成了对计算资源的“从N到1”的重组和集成。基于这样的方案设定,聚合计算机将从各个层面,简化和降低不同用户人群的使用、操纵计算机集群的难度。
聚合计算的核心是“从N到1”反向操作,能够将10,000台服务器合体变成1台计算机
本质上,聚合计算是在Laxcus分布式操作系统基础上,为了应对AI海量算力需求,设计的一项低成本高性能计算解决方案。在上世纪的80、90年代,针对当时的高性能计算业务,SUN公司曾经提出过“网络就是计算机”的概念,它的出发点就是希望利用低端的硬件设备(PC服务器),实现高端硬件设备(大型机)才能达到的计算效果,但是很不幸的是,SUN在后来的发展过程中逐渐没落,最后被甲骨文收购倒闭消失。但是今天,当面对汹涌而来的AI算力,Laxcus分布式操作系统通过聚合计算,把SUN的PPT概念实现了。
为什么要使用聚合计算?
首先是,时代变了!传统的单机计算工作相对简单,只需要针对一台计算机编程即可。即使后来HPC使计算工作量放大,使用slurm这种分布式计算框架也能解决。但是面对AI,需要的计算机和计算规模呈指数级放大,并且算法也是越来越复杂,就需要一种新的计算体系,实现超大规模的分布式计算和并行计算,聚合计算取代传统的单机和多机计算方案是必然趋势。
其次,因为现在的算力应用业务越来越复杂,通常一次计算,就涉及数百上千个计算机节点,调动各种软硬件资源,这项工作已经超出很多普通程序员的能力,所以需要简化。管理过计算机集群,或者从事过计算机集群的分布式编程开发的程序员都应该对此深有体会,这是极其考验工作能力的工作,需要具备相当资深的工作能力才能胜任,而聚合计算把这些工作大幅简化了,降到一个小白的程度,让只具备普通编程和管理工作能力的人也能胜任。
对于开发者来说,聚合计算就像英伟达CUDA一样,在没有CUDA之前,GPU编程是一项高度专业的工作,而CUDA出现之后,GPU编程就是一项普通开发者也能参与的事情,更关键的是,CUDA实现了GPU编程的标准化和通用化。聚合计算也是同样的情况,它将原来基于多机环境的分布式编程和并行计算工作标准化和通用化,让开发者更快完成设计开发工作,也帮助用户更容易使用计算机集群。
Laxcus分布式操作系统组织架构
聚合计算的创新
聚合计算包含了大量基础创新,并将在未来深刻影响算力产业格局,主要有以下几个方面。
1. 技术的创新:
聚合计算是一系列基础技术的升级、改进后的集成,主要涉及的领域包括:网络通信、多机融合、分布式计算、并行计算、人机交互、安全、集群的管理和调度等。这里不展开说了,具体看下图。
聚合计算关键核心模块
2. 人机体验的创新
聚合计算借助网络,把分散的物理计算机连接组织起来,形成一台集中的虚拟的软件的“超级计算机”。用户通过一个终端、一条指令、一项操作,就可以控制计算机集群的全部计算机,但是在人机交互界面,却像是一台计算机。这就大大简化了操作计算机集群的难度和用户使用成本。
3. 应用开发的创新
Laxcus分布式操作系统在聚合计算基础上,实现了一套分布式编程的函数库:DSDK(Distributed SDK)。基于DSDK,开发者可以像编写单机应用软件一样,开发基于Laxcus分布式操作系统的多机并行计算应用软件。尤其是面对日益复杂的AI、HPC编程,聚合计算这种全新的编程方式,通过屏蔽和隐藏中间处理过程,把开发AI和大规模算力应用软件的难度,降低到与单机应用编程同等的维度。这也是AI和大规模算力应用实现标准化和通用化的前提和基础,将深刻影响未来AI产业的走向。
4. 对不同用户人群的影响
对于开发者,聚合计算是继传统的单机计算、多机分布式计算(如slurm框架)之后,开辟的一条全新技术路径和计算范式,它大幅简化了开发AI、HPC、大数据应用软件的成本。将深度影响未来的算力应用走向,为算力应用的标准化和通用打下基础。
对于系统管理员,将从每次管理一台计算机,变成管理一个计算机集群。从一个指令控制一台计算机,变成一个指令控制一个计算机集群。这将大幅降低计算机集群管理成本,提高运维效率。
对于普通的用户,可以像使用一台计算机一样,操纵计算机集群的全部计算机,并且也不必考虑这些计算机分散在哪里,以及如何管理、维护它们。
由于聚合计算的这些能力和特点,完美实现了超强算力,和编程开发、使用的逻辑统一性和简单化两项核心基础技能的融合,这是目前任何操作系统都不具备的能力。所以,可以大胆地预测,未来,Laxcus分布式操作系统在算力市场,将取代发展了30多年的Linux、Windows单机操作系统,并且像英伟达基于CUDA构建的GPU算力生态一样,Laxcus分布式操作系统也将构建一套全新的计算体系和大规模算力应用生态。
未来30年是AI的时代,算力将深入各个领域,其影响无处不在。其中可以预见的是,国产硬件性能不行、算力缺失的现象将长期存在,Laxcus分布式操作系统通过聚合计算,实现“硬件不行软件补”的策略,将有效解决超大规模计算的问题。再进一步整合硬件,完成软硬件双轮驱动,将重新定义算力市场,重构计算体系,掌握未来30年计算机产业发展的定义权、主导权!
Laxcus分布式操作系统研发团队正在扩招中,岗位包括:技术合伙人、项目主管、核心开发人员,公司提供了丰厚的股权和期权奖励,欢迎“有想法”和“不安分”的小伙伴联系我们,加入Laxcus分布式操作系统研发团队,抓住AI和算力互联网发展浪潮红利!
技术探讨长按此微信号
股权商务合作长按此微信号