2023年,全球科技发展大步向前二维晶体管问世、ChatGPT迭代、万米深井钻探、人脑细胞图谱绘制作为科学发现和工程实现的幕后英雄,高性能计算(超算)发展如何?在计算速度之外,未来我们更需要关注什么?
近日,中国科学院院士、北京航空航天大学教授钱德沛接受《中国科学报》独家专访,针对中国超算作了回顾、分析、研判和展望。
钱德沛:中国超算从2000年后开始走上“快车道”,并在过去20多年里取得了举世瞩目的成就。但在规模和应用水平上,中国超算与美国相比仍有差距。美国在超算领域的投入远超中国,比如2018年开始的美国能源部E级计算计划,仅在研制E级超级计算机方面就投入了18亿美元,对E级计算应用和运维的投入也接近这个数量。相比而言,中国超算在有限投资下能取得如今的成就还是令人满意的。
《中国科学报》:在刚刚过去的2023年,超算领域让你印象深刻的事件有哪些?
钱德沛:美国规划的3台百亿亿次超级计算机(E级超算)已经有2台问世,分别是部署于美国橡树岭国家实验室的Frontier和在美国阿贡国家实验室完成部署的半规模的Aurora。Aurora全系统完成后计算性能峰值将超过2 Exaflops,预计2024年问世,在全球超算TOP500榜单上将超过Frontier,成为新的世界第一超算。
2023年,国内超算领域的一件大事是国家超算互联网工作启动部署。超算互联网的一大目标是,通过紧密连接供需双方,探索一种新的运营模式和服务体系,不仅算力资源可以统筹调度,应用层也可实现互联共享。我认为这件事的关键是要让供需双方都有更好的获得感,在这个前提下,带动我国计算技术向更高水平发展,推动自主核心软硬件技术深度应用。
《中国科学报》:2023年是“大模型年”“AIGC元年”,超算也在加速与人工智能(AI)融合,驱动科学研究、行业应用进入数智时代。对于超算和智算的融合,你认为有哪些需要关注的点?
钱德沛:超算和智算本质都是计算。超算的“超级”是阶段性概念,是对更高计算能力的描述;智算是支撑智能应用的计算基础设施,是使用深度学习模型和开放数据的计算。人们谈论的融合也是基于这两类算力特征在能力、应用等层面的统一。
从这个认识前提出发,我认为超智融合有两方面工作需要关注。第一,要突破二者技术层面上的互相借用,找到相互的支撑点;第二,要注意应用的牵引,从应用出发,发挥智算和超算各自的潜能。
现阶段中国算力发展受到外部条件制约较多,智算和超算在硬件层面、算法层面、软件层面和应用层面的融合,有望促进系统的深度优化。如果能做到这样,将是中国计算发展取得新突破的一条有效路径。
《中国科学报》:人们往往更关注超算的计算速度或算力峰值,而对其他指标关注较少。从整机性能来看,我们还应该关注超算的哪些方面?
钱德沛:制约超算整体性能发挥和应用水平的因素有很多,如存储、互联、软件等,有时这些因素对超算整体性能的制约更大。因此,超算系统的性能优化不应该只盯着计算核心,还要结合存储设备、互联网络、加速硬件等,从软硬件协同上下功夫。目前,我们的核心计算芯片相比国际先进水平仍有差距,更应从协同优化上多做文章,这样才能使我们的超算系统在现阶段不太先进的芯片基础上,在某些领域或某一类应用中发挥出优异的性能。
钱德沛:对于计算机而言,软件的重要性不亚于硬件。当前,我国自主超算应用软件的发展仍滞后于硬件系统,是我国超算事业中一个亟待补齐的短板。
我国先后支持了数十个超算应用软件的开发与推广使用,但多数仍停留在自研自用的“超算应用程序”的形态,还没有真正实现“软件化”,更难言商业成功。这与我国超算自主应用软件用户数量少、产品化能力弱、运营推广不足等有关。
所以,“软硬协同”即软件开发一定要和硬件优化配合起来。我国自主研发的超级计算机的计算核心是国产芯片,许多大型商业软件并不能直接拿来用,因此适配国产芯片的超算软件的研发是真正发挥我国超算作用的必由之路。
《中国科学报》:目前市面上出现了建设数据密集型超算的做法,对此你怎么看?
钱德沛:制约超算性能的一大原因就是“存储墙”,因为存储器速度和处理器速度之间的差距在加大,“存储墙”对计算性能的影响越来越明显。从这个角度看,在大数据和AI兴起的背景下,数据密集型超算的提法是有道理的,符合事物发展的规律。
但是,AI应用不是只强调数据量大或计算量大,而是二者都有。也就是说,数据密集型超算要应对的是数据和计算量的双重密集,这是由应用特点决定的。
随着科学智能时代的来临,气象海洋、基因测序、高能物理、新材料设计等应用场景,对大计算和大数据的要求并重,数据的重要性日益凸显,存储性能面临更大挑战。数据密集型超算是超算结合了AI、大数据等新一代应用需求和技术特点后产生的一种计算类型,是高性能计算领域的一个有益创新探索。
《中国科学报》:我国超算目前面临“重算力、轻存力”的情况,对于解决这一问题你有什么想法?
钱德沛:存储历来是与计算紧密耦合的,但从产业角度来看,如果存储系统的可扩展性和一致性维护等基本功能成为一个标准化、模块化的东西,那么可以将其看作一层独立的基础设施。如果存力设施可以像标准化的服务器一样使用,用户无需知道存储系统的软硬件架构,只需知道连接的东西是一个数字基础底座、可以按需配备和使用,这对于解决存算失调问题或许是一条可行路径。
钱德沛:全球围绕超算的竞争一直存在,围绕计算性能、能耗、支持AI的能力等,都对应着一些排名榜单。
但现在围绕应用效果的比拼是值得关注的。近年来,超级计算技术促进了美国军事、科技和产业的进步。我们也要真正发挥超算作用,想办法让超算更好用,让更多人用好超算,用超算促进各行各业发展。
现在许多领域离开计算就“玩儿不转”了,比如高能物理、生命科学、气象预报等。可以预见,社会每个领域的发展都可以借助计算来优化。所以,未来中国的超算、智算,努力的方向都是要真正发挥实效。
我们发展超算的思路一直强调机器、环境、应用的协调均衡发展,这三者相辅相成,缺一不可。没有强大的计算能力,一切都是无本之木,而超算能力若不能被很好利用,就无法体现其价值。所以,我们要创造好的物理平台,让三方面的人能够聚合交流,一起工作,使超算真正成为被广泛利用的资源。
超算不应该是只有少数人用得起、用得上的“神器”,越多人参与、使用越好。所以,未来超算不要只盯着计算速度提高了多少,还要更多以应用论英雄,一台超算越好用、用的人越多,越是“英雄”。CQ9传奇电子 CQ9电子CQ9传奇电子 CQ9电子





