
联系方式
总机:0510-85195508
业务:0510-85162150
人事:0510-85102511
邮箱:info@mail.nsccwx.cn
传真:0510-85167598
邮编:214000
地址:江苏省无锡市滨湖区吟白路1号研创大厦


关注我们
今年在达拉斯举办的全球超级计算SC18大会中,国家超级计算无锡中心团队共有3篇第一作者论文被大会收录,分别来自机器学习、地震模拟和分子动力学三个方向,“神威·太湖之光”高水平应用成果进一步得到国际认可。
SC(Supercomputing Conference)大会是国际超算领域的顶级会议(CCF A类),国际影响力巨大。今年SC18大会,由IEEE计算机学会、美国计算机协会联合主办,以“HPC Inspires” 为主题,汇聚了全球12000多名高性能计算领域专家、学者及业界精英。
基于“神威·太湖之光”的三篇高水平应用成果论文的详情具体如下:
机器学习
为处理高维度、大规模数据问题,提出有效的高性能计算解决方案,本文在研究K-Means算法中数据流和聚类质心数并行优化的基础上,基于当前世界顶级超级计算机“神威·太湖之光”硬件体系结构,提出了一种新颖的K-Means算法。在算法中引入了一种多级并行分区方法,如图1所示,实现数据流、聚类质心数、数据维度的并行划分,使数据流、聚类质心数和数据维度都能独立且同时变化。文章提出核组内从核阵列之间两阶段规约策略,来充分发掘SW26010 异构多核处理器潜力、解决高维度数据性能问题。此外,本文还设计了能够处理大规模聚类问题的解决方案,使最多可达4,096个计算节点(1,064,496个核心),196,608个数据维度和超过160,000个聚类质心,同时保持高性能和高可扩展性,显著改进了以前方法性能。
图1
基于“神威·太湖之光”之光的KMeans算法三级数据分区和并行方法
图2
应用:高分辨率遥感图像土地分类结果。左侧是标准分类结果,中间是相应的原始图像,右侧是本文的分类结果。测试数据集是DeepGlobe 2018卫星图像理解挑战赛数据集,图像大小是2,448×2,448像素,每个像素的分辨率是50cm,包含RGB数据。采用标准分类定义的颜色表示本文的分类结果。
图3
机器学习论文作者余腾现场报告
地震模拟
地震模拟是用于解开地球内部构造的强有力工具。地震模拟可用于验证地震波传播规律,在地震多发区域可以进行震害分析、指导房屋抗震设计,在地震发生后可以指导救援官兵和医护人员进行救援工作,人工地震波还可用于探测地下资源。
2008年汶川大地震震级高达8.0级,造成了约6.9万人死亡,37万人受伤以及直接经济损失8452亿元。本文在基于去年“戈登贝尔奖”的工作——模拟唐山大地震的基础上对如此大震级的汶川大地震进行模拟。本文参与单位包括国家超级计算无锡中心、清华大学、南方科技大学、中国科学技术大学以及国家海洋实验室。
本文针对汶川区域地形起伏复杂、落差大(最大落差达到7公里)的特点,使用曲线坐标系同位网格来获得精确稳定的边界条件,以及使用牵引力镜像法来精确地刻画复杂的地形起伏。然而,汶川地震的区域大小是唐山区域的8倍左右,单位网格的变量个数也是去年的约1.6倍。针对如此大的计算量,本文使用当前世界顶级超级计算机“神威太湖之光”来进行模拟。在性能优化上,首先调整算法使其适应神威的异构架构。接着,将整个模拟区域进行了三层划分,并考虑进程级和线程级建立了一个性能模型来表示性能与配置参数之间的关系。紧跟着,使用遗传算法对性能模型进行自动调优。最后,针对一些特殊数组,文章对其进行数据排布转换来提高其内存带宽。在这样的优化之后,本文在最高25米分辨率的汶川地震模拟下达到了最高性能每秒九千万亿次。本文成功模拟并还原出汶川大地震时地震波的传播过程,并且能够从中看出由于复杂地形起伏所造成的盆地放大效应。
汶川区域的三维模拟区域的网格化(图4),汶川区域地形起伏落差大,达到7公里,接近青藏高原的海拔。该区域如果使用去年模拟唐山时所使用的规则化交错网格进行描述将很不精确,本文所使用的曲线坐标系同位网格则可以对其地形进行精细的刻画。
图4
图5
(1): 表示曲线坐标系同位网格法的坐标转换,将非规则的物理空间转换为规则的逻辑空间。(2): 表示牵引力镜像法。
图6
使用神威太湖之光进行汶川地震模拟的部分结果,上图(图6)是第43.2秒的地震波图像,绿色的星星为震中,即汶川县。可以看到,使用本文的曲线坐标系同位网格法,可以精确捕捉到右下角四川盆地所造成的地震波放大效应。
图7
地震模拟论文作者陈炳炜现场报告
分子动力学
分子动力学是一类重要的超算应用,是生物、化学、 材料学、 力学等学科研究的重要工具。利用超级计算机进行大规模分子动力学的模拟已经成为相关重大研究课题的必要手段。然而, 由于一系列的机器访存模式和应用特征的矛盾, 分子动力学模拟在“神威太湖之光”上并没有一套完整的优化方案。基于对机器架构的深入理解,本文提出了混合内存更新,优化软件Cache,更完整的向量化,定制数学函数等方案,完成了重要的分子动力学应用LAMMPS中的多个势场的深入优化。在单节点实现方面,完成了比原有实现加速最高68倍的优化,实现了单个神威计算节点可以达到接近100个Intel核心的性能。并且在4,256,840核心使用Tersoff势场模拟纯硅的实验中实现了2750亿原子的模拟,并获得了接近线性的加速比和2.43PFlops的峰值性能。
图8
L-J势场和Tersoff势场的强弱扩展性: 两者均能在4,256,840核心的并行规模下实现大约50%的强可扩展性,而在弱扩展性的测试中,两者表现出了接近线性的加速比
图9
Tersoff势场每时间步模拟所需的时间随着优化的深入逐渐下降,作者提出的Hybrid Memory Updating (HMU)以及后续的向量化等细致的优化实现了Tersoff势场在单节点上相对于原始主核版本的68倍加速
图10
分子动力学论文作者段晓辉现场报告
上述发布在SC18大会上的三篇文章的研究工作得到了国家超级计算无锡中心的大力支持,论文的理论计算工作得益于“神威·太湖之光”。“神威·太湖之光”超级计算机正式对外公布的两年来,以持续支持国家重大挑战性需求、支持重大装备、重要科学问题求解作为使命,不断拓展业务范围与应用领域,提高服务水平,并取得众多成果。未来,国家超级计算无锡中心将持续支持重大科学研究与高水平应用。