新闻动态

“神工坊”高性能仿真云平台 VS 其它云平台,谁更牛?

2021-04-01 20:16



目前,大量工业软件纷纷上云,“神工坊”和这些云计算到底有什么区别呢?

当前,“神工坊”高性能仿真平台的计算资源主要来源于国家超级计算无锡中心,超算在系统架构和服务体系都与现在的云计算有很大不同,今天我们来聊聊超算的优异性



总体来说,100%物理机性能、高效通信、快捷调度、大规模并行是“神工坊”采用超算资源作为支撑带来的主要优势。对于计算规模和密度较大科学计算、工程模拟等领域,相比基于虚拟技术的云计算,超算是更好选择


01
100%物理机性能


超算天生为性能而生,所有的节点都是真实的物理机,作业直接运行于物理机,可以充分发挥CPU等核心部件的性能。

云计算大部分基于虚拟化基础设施,用户直接使用的是运行在宿主机上的虚拟机,性能相对物理机难免有一些损失。如果不是web服务等非计算密集型任务,可能造成比较明显的影响。更重要的是,我们还不得不担心一个对性能影响更大的问题——超卖。


Tips

 什么是“超卖”?

简言之,云计算超卖指实际售出的虚拟资源数量,大于实际拥有的物理资源数量。

这里转载了知乎某博主对于AWS各型号实例CPU超卖率的推断(以下数据不代表本文观点,请访问以下网址自行求证:https://zhuanlan.zhihu.com/p/24435587)



02
高效通信


为了追求极致性能,超级计算机的所有节点都选择集中放置,并通过高速低延迟的局域网进行连接。

例如,“神威·太湖之光”节点间都通过InfiniBand交换机进行连接,对分带宽约相当于千兆以太网的56倍,同时还有极低的延迟。

而基于虚拟化基础设施的云计算,在网络硬件一般不会采用昂贵的InfiniBand,同时虚化也会对网络效率带来影响。


Tips

 InfiniBand 

InfiniBand(直译为“无限带宽”技术,缩写为IB)是一个用于高性能计算的计算机网络通信标准,它具有极高的吞吐量和极低的延迟,用于计算机与计算机之间的数据互连。InfiniBand也用作服务器与存储系统之间的直接或交换互连,以及存储系统之间的互连。


  对分带宽 

将网络分成节点数接近的两个子网,在所有分法中,连接两个子网的链路带宽小值为该网络的对分带宽。



03
快捷调度


超算通常采用作业调度系统给计算任务分配计算资源,资源充足时所消耗的时间用户几乎无法感知。

同时,国家超级计算无锡中心使用自研的调度系统,调度时间短、系统资源占用率小于0.1%、调度时间相比其他超算使用的调度器大幅缩减。


而云计算一般需要采用虚拟机调度,启停虚拟机通常需要带来额外的时间开销。另外,当虚拟机资源不满足多变业务资源需求时,还需要反复重新配置和启动虚拟机。




04
大规模并行


超级计算机在“集中力量办大事”方面具有天然优势。超级计算机核心的场景,就是利用所有的计算资源计算一个大科学问题。得益于超级计算机节点间高效通信网络,科学计算和工程模拟等需要并行进程间实时通信的应用,在超级计算机上能获得非常理想的加速比



而在云计算环境中,单个虚拟机规模往往不能突破单个物理节点的规模限制。云计算在架构上,一般是众多分布式物理集群的集合,而物理集群之间通过互联网进行连接。因此,即使采用作业调度模式,云计算在跨集群计算时也无法克服互联网带来的物理网络瓶颈。


Tips

 加速比 

加速比(speedup),是同一个任务在计算资源规模增加后,计算消耗时间降低的比例,用来衡量并行系统或程序并行化的性能和效果。



哇,今天真的收获满满!“神工坊”高性能仿真云平台的网址有吗?

您可访问 www.sim-forge.com了解更多精彩内容!