国家信息中心今年3月发布报告指出,我国大量数据中心服务器的算力平均利用率只有5-10%,绝大多数时间都处于“摸鱼”状态。而在AI训练过程中,当前业内集群MFU(模型AI算力利用率)普遍只有30%-50%左右。在国家大力推动数字基础设施建设,加快新质生产力高质量发展的大背景下,如何有效利用数字基础设施,充分挖掘算力资源,提高模型训推速度,助力业务发展,已经成为很多企业的“燃眉之急”。本期《数智QA》,我们就来一起聊聊这个老大难问题——提高算力利用率,为企业降本增效。看看把算力从“佛系”变成“斗士”都有哪些绝招。为什么AI训练时算力利用率普遍都比较低?AI训练故障频发、故障恢复时间较长,网络通信瓶颈等问题,这些都会导致AI算力利用率低下。有统计表明,就算是业界顶尖的云厂商,其千卡训练集群每个月也得至少发生15次故障,每次恢复还得数小时。随着AI集群规模从千卡到万卡,故障中断次数及恢复所需时间呈指数级增长趋势。另外,还得提提算力集群的网络通信,它要是“堵车”了,算力利用率也得跟着“趴窝”。有数据表明,网络的丢包率达到1% 时,集群中的GPU利用率就会在原有基础之上下降 50%。算力利用率低会给企业带来哪些影响?资源浪费:企业花了大把银子购买的计算能力却没有带来实际价值。这不仅会造成资源浪费,还增加了企业运营成本。成本增加:企业需要支付更多的资金来维持这些未充分利用的资源,投资回报率低。竞争力下降:高效的算力利用率是企业保持竞争力的关键。算力利用率低会使企业无法及时响应市场变化,降低企业竞争力。另外,低算力利用率还会导致能源消耗和碳排放增加,对环境产生不利影响。如何才能提高算力利用率?提高计算集群的算力利用率涉及软硬件、网络及训练策略等多个层面。先说硬件配置。使用高性能计算节点,如专业的AI芯片或高端GPU,以确保单节点的计算能力最大化。同时,根据AI训推任务的需求,合理配置服务器的内存、存储和I/O性能,别让哪个环节成了“拖油瓶”。软件与算法也不能落下。训练时必须得用上更高效的深度学习框架,如TensorFlow、PyTorch等。另外,还要对算法进行并行化处理,以充分利用多核处理器及多GPU优势。再来说说网络性能。需要采用高带宽、低延时、低抖动、低丢包率的先进网络,并配置网络负载均衡策略,才能让数据跑得又快又稳。如联想HPC、智算集群就采用了高效的InfiniBand、RoCE网络,以充分满足AI大规模并行计算要求。分布式训练策略也得安排上。采用数据、模型或流水线并行等分布式训练方式,并采用更高效的资源管理与调度器、利用缓存机制及训前预热策略、通过调整及优化超参数等措施,也可以显著提升算力集群的性能和效率。在具体实施时,企业会遇到哪些挑战?首当其冲的是技术方面的拦路虎。企业会遇到异构算力整合及协同,跨物理资源、跨芯片、跨节点,甚至跨集群的资源池化、算力扩展等问题。其次,管理方面的挑战也让人头疼。如何根据任务需求动态地调度和分配算力资源,同时避免资源的浪费,简直就像一场算力拼图游戏。最后就是“成本“这座大山。要提升算力利用率,不管是软件、硬件、人员培训、运营、维护等等,都需要有”钞能力“才行。联想是如何为企业解决这些问题的?作为中国领先的智能IT基础设施提供商,联想为了企业能高效利用基础设施加速智能化转型也是操碎了心。今年以来,联想不断完善“全栈混合AI”战略布局,在AI终端、AI基础设施和AI解决方案与服务等领域持续发力。特别是在AI基础设施领域,联想推出了联想万全异构智算平台。联想万全异构智算平台是AI 2.0时代联想中国基础设施战略框架的核心。该平台既可以自动完成AI计算并发布模型或发布推理服务,又可以实现对数据和模型优化,智能计算、科学计算(HPC)、通用计算等算力匹配,管理调度及对训练和推理过程的监控。而且,平台还特别贴心地给专业AI开发用户留足了手动深入调整计算过程的空间,包括工具和模型的选择、算力配置的调整、对任务的定制化监控等,真真做到了“我的地盘我做主”。具体而言,联想万全异构智算平台集成了算力匹配魔方、GPU内核态虚拟化、联想集合通信算法库、AI高效断点续训技术、AI与HPC集群超级调度器等五大创新技术。这五大技术在基础设施层面可显著提升算力利用率和可用性。对于用户而言,则可从不同方面帮助用户提高应用部署速度和应用门槛,降低业务TCO(全周期使用成本),让用户用起来“如有神助”,省钱又省心。联想万全异构智算平台是如何帮助企业提升算力利用率和可用性的?联想万全异构智算平台集成的五大创新技术里,有四项技术聚焦在帮助企业提升算力利用率和可用性的算法创新。其中,在GPU内核态虚拟化方面,联想通过对算力和显存精准隔离算法、驱动层资源调度、颗粒度精细管理三大革新,已经将GPU虚拟化效率提升至95%,极致情况下可达99%以上。在联想集合通信算法库方面,联想通过对网络通信架构的调优,使AI训练效率相对业界领先方案进一步提升10%-15%。而对于集群AI训练中的故障中断问题,联想积累了全面的AI训练故障特征库,并对断点续训做了数据多级备份、AI预判及综合监控能力提升等三方面革新。这样一来,就实现了AI训练分钟级续训,预计不久将实现秒级续训。最后是超级调度。联想的异构集群超级调度器架构在AI的K8S和HPC的Slurm调度之上,可对所有类型的计算任务全面监控并自动实现AI节点和HPC节点的扩缩容,彻底破局算力孤岛,提升算力利用率和可用性。
0 评论