(图片来源网络,侵删)
文 | 《中国科学报》 记者 赵广立2023年,全球科技发展跃步向前——二维晶体管问世、ChatGPT迭代、万米深井钻探、人脑细胞图谱绘制……作为科学发现和工程实现的幕后英雄,高性能计算(即“超算”)在过去的一年发展如何?在计算速度之外,未来我们更需要关注些什么?近日,中国科学院院士、北京航空航天大学教授钱德沛接受了《中国科学报》独家专访,为我们作了回顾、分析、研判和展望在他看来,超算不应该是只有少数人用得起、用得上的“重器”,而是越多人参与、越多人使用越好钱德沛 受访者供图回顾 中国超算发展进入新阶段《中国科学报》:请先大体介绍一下,中国超算的发展近况如何?钱德沛:近一两年虽然比较难,但中国超算无论是建设规模还是应用水平都有了新的进步,事业发展已经进入了一个新阶段中国超算从2000年之后开始走上“快车道”,并在过去20多年里取得了举世瞩目的成就可以说,如果没有过去这些年国内经济的快速发展和各级各地政府的支持,就没有中国超算的今天但与美国相比,中国超算的规模和应用水平仍还有不少差距应该看到,美国在超算领域的投入是远超我们的,比如2018年开始的美国能源部E级计算计划(ECP),仅在研制E级超级计算机方面就投入了18亿美元,对E级计算应用和运维的投入也接近这个数量相比而言,中国超算在有限投资下取得的成就还是令人满意的《中国科学报》:在刚刚过去的2023年,超算领域让你印象深刻的事件有哪些?钱德沛:至2023年,美国规划的3台百亿亿次超级计算机(E级超算)已经有2台问世,分别是部署于美国橡树岭国家实验室的Frontier和新近在美国阿贡国家实验室完成部署的半规模的AuroraAurora全系统完成后计算性能峰值将超过2 Exaflops,预计2024年问世,在全球超算TOP500榜单上将超过Frontier,成为新的世界第一超算2023年国内超算领域的一件大事是国家超算互联网工作启动部署超算互联网的一大目标是,通过紧密连接供需双方,探索一种新的运营模式和服务体系,不仅算力资源可以统筹调度,在应用层也可实现互联共享我认为这件事的关键是要让供需双方都能有更好的获得感,在这个前提下,带动我国计算技术向更高水平发展,推动自主核心软硬件技术深度应用《中国科学报》:自力更生、超算互联、普惠应用、超智融合、低碳绿色……这几个词语中,哪几个词语更能代表中国超算在过往一年的发展特点?钱德沛:“自力更生”是中国超算多年来一直在践行的,“低碳绿色”也是大家多年来的共同目标,所以这两个词语并不算是2023年的特点能够代表2023年特点的词语,我想“超算互联”和“超智融合”是比较有共识的超算互联前面说了,超智融合也是2023年谈论比较多的话题至于“普惠应用”,我觉得2023年我们的超算还没有达到这个阶段,这也是我们要努力的一个目标分析 融合发展与协同优化成为关键词《中国科学报》:2023年是“大模型年”“AIGC元年”,超算也在加速与AI融合,驱动科学研究、行业应用进入数智时代对于超算和智算的融合,你认为有哪些需要关注的点?钱德沛:超算和智算本质都是计算超算的“超级”是阶段性的概念,是对更高计算能力的描述;智算是支撑智能应用的计算基础设施,只不过人们从狭义上赋予了它们基于各自特征的名字,支持传统数值计算的叫超算,使用深度学习模型和开放数据的计算叫智算人们谈论的融合也是基于这两类算力特征在能力、应用等层面的统一从这个认识前提出发,超智融合是一种客观存在,这其中我认为有两方面的工作需要关注第一,要突破二者技术层面上的互相借用,找到相互的支撑点;第二,要注意应用的牵引,从应用出发,发挥智算和超算各自的潜能中国现阶段的算力发展受到的外部制约比较多,智算和超算在硬件层面、算法层面、软件层面和应用层面的融合,有望促进系统的深度优化如果能做到这样,那将是中国计算发展取得新突破的一个有效路径《中国科学报》:人们往往会更关注超算的计算速度或者算力峰值,而对其他指标关注较少从整机性能来看,我们还应该关注超算的哪些方面?钱德沛:超算的计算速度直接反映着计算系统的能力,理所当然会成为大众关注的重点但制约超算整体性能发挥和应用水平的因素确实还有很多,比如存储、互连、软件等,有时候这些因素对超算整体性能的制约更大因此,超算系统的性能优化不应该只盯着计算核心,而要结合存储设备、互联网络、加速硬件等一起看,从软硬件协同上下功夫我们的核心计算芯片相比国际先进水平目前仍有差距,更应该从协同优化上多做文章,这样才能让我们的超算系统即便在现阶段还不太先进的芯片基础上,在某些领域或某一类应用中也能发挥出优异的性能软硬件协同深度优化是有事例可循的例如,美国D. E. Shaw研究所就用专门设计的ASIC芯片搭建了分子动力学模拟专用计算机(Anton machine),通过算法创新和软硬件协同,在分子动力学模拟中获得了比通用计算机高出百倍的计算能效,这是非常值得我们借鉴的《中国科学报》:你刚才提到了软硬件协同,我国超算软件的发展现状如何?钱德沛:对于计算机而言,软件的重要性不亚于硬件当前,我国自主超算应用软件的发展仍滞后于超级计算机硬件系统,是我国超算事业中一个亟待补齐的短板事实上,国家一直在支持自主超算应用软件的发展,先后支持过数十个超算应用软件的开发与推广使用,但多数目前仍停留在自研自用的“超算应用程序”形态,还没有真正实现“软件化”,更难言商业成功这与我国超算自主应用软件用户数量少、产品化能力弱、运营推广不足等原因有关所以刚才讲“软硬协同”,也是在讲软件开发一定要和硬件优化配合起来我国自主研发的超级计算机的计算核心是国产芯片,许多大型商业软件并不能直接拿来用,因此适配国产芯片的超算软件的研发是真正发挥我国超算作用的必由之路换句话说,我国超算的应用生态,只能依靠自己来建设研判 数据规模提出新命题《中国科学报》:如今的计算应用,数据规模都不小,尤其在分布式算力中心环境下,数据的放置对于应用的性能和能耗影响都很大,市面上也出现了建设数据密集型超算的做法对此你怎么看?钱德沛:过去我们常将计算机分为两类:以控制器为中心和以存储器为中心的体系结构,其实就是CPU和存储器哪个被放在“中心”的位置自事务处理应用涌现后,大家越来越强调数据存储的重要性其实,制约超算性能的一大原因就是“存储墙”,因为存储器速度和处理器速度之间的差距在加大,“存储墙”对计算性能的影响就越来越明显从这个角度看,在大数据和人工智能兴起的背景下,数据密集型超算的提法是有道理的,符合事物发展规律但是,人工智能应用不是只强调数据量大或计算量大,而是二者都有也就是说,数据密集型超算要应对的是数据和计算量的双重密集,这是应用特点决定的随着科学智能时代来临,应用场景如气象海洋、基因测序、高能物理、新材料设计等,对大计算和大数据的要求并重,数据的重要性日益凸现,存储性能面临更高挑战数据密集型超算是超算结合了人工智能、大数据等新一代应用需求和技术特点后产生的一种计算类型,是高性能计算领域的一个有益创新探索《中国科学报》:数据正成为新的生产资料,这使得存力的基础地位日益彰显我国超算目前常面临“重算力、轻存力”的现状对于解决这一问题你有什么想法?钱德沛:过去由于成本、预算等原因,一些超算中心在建设之初没有配备足够的存储能力,往往需要在运行过程中根据业务需要陆续扩展存储,这一现象确实存在这并不是不重视存力,而是在经费有限条件下的一种策略存储历来是与计算紧密耦合的,但从产业角度来看,如果存储系统的可扩展性和一致性维护等基本功能都做得很好,成为一个标准化的、模块化的东西,那么存储其实也可以抽象成为一层独立的基础设施如果存力设施可以像标准化的服务器一样使用,用户无须知道存储系统的软硬件架构和内部实现细节,只需知道连接的东西是一个数字基础底座、可以按需配备和使用,这对于解决存算失调问题或许是一条可行路径展望 中国超算未来要“以应用论英雄”《中国科学报》:现在全球超算竞争的焦点有什么变化吗?钱德沛:全球围绕超算的竞争一直存在,如围绕计算性能、IO能力、能耗、支持AI的能力等,这些都对应着一些排名榜单但现在围绕应用效果的比拼是值得关注的可以看到,美国这些年来受益于计算能力的领先,在超级计算技术的帮助下促进了其军事、科技和产业的进步我们也要在真正发挥超算作用方面下大力气,想办法让超算更好用、让更多人用好超算,用超算促进各行各业的发展《中国科学报》:进入2024年,请展望一下,超算在未来有哪些重要的发展趋势?钱德沛:中国未来要更多以应用论英雄现在许多领域已经是离开计算就“玩不转”了,比如高能物理、生命科学、气象预报、航空航天、汽车制造等,可以预见社会每个领域的发展,都可以借助计算来优化所以未来中国的超算也好、智算也好,努力的方向就是要真正发挥出实效我们发展超算的思路一直都是强调机器、环境、应用的协调均衡发展,这三者相辅相成,缺一不可没有强大的计算能力,一切都是无根之木,而超算能力若不能被很好地利用,就无法体现其价值所以,我们要创造好的物理平台,让三方面的人能够聚合交流,一起工作,使超算真正成为被广泛利用的资源超算不应该是只有少数人用得起、用得上的“重器”,而是越多人参与、越多人使用越好所以,未来超算不要只盯着计算速度提高了多少,还要更多以应用论英雄:一台超算越好用、用的人越多,越是“英雄”;超算用户使用超算用得越好、越巧妙,越是“英雄”
0 评论