利用率绝招都有哪些提高QA(利用率联想集群提高训练)「利用率提升方案怎么样写」

国家信息中心今年3月发布报告指出，我国大量数据中心服务器的算力平均利用率只有5-10%，绝大多数时间都处于“摸鱼”状态。
而在AI训练过程中，当前业内集群MFU（模型AI算力利用率）普遍只有30%-50%左右。
在国家大力推动数字基础设施建设，加快新质生产力高质量发展的大背景下，如何有效利用数字基础设施，充分挖掘算力资源，提高模型训推速度，助力业务发展，已经成为很多企业的“燃眉之急”。
本期《数智QA》，我们就来一起聊聊这个老大难问题——提高算力利用率，为企业降本增效。
看看把算力从“佛系”变成“斗士”都有哪些绝招。
为什么AI训练时算力利用率普遍都比较低？AI训练故障频发、故障恢复时间较长，网络通信瓶颈等问题，这些都会导致AI算力利用率低下。
有统计表明，就算是业界顶尖的云厂商，其千卡训练集群每个月也得至少发生15次故障，每次恢复还得数小时。
随着AI集群规模从千卡到万卡，故障中断次数及恢复所需时间呈指数级增长趋势。
另外，还得提提算力集群的网络通信，它要是“堵车”了，算力利用率也得跟着“趴窝”。
有数据表明，网络的丢包率达到1% 时，集群中的GPU利用率就会在原有基础之上下降 50%。
算力利用率低会给企业带来哪些影响？资源浪费：企业花了大把银子购买的计算能力却没有带来实际价值。
这不仅会造成资源浪费，还增加了企业运营成本。
成本增加：企业需要支付更多的资金来维持这些未充分利用的资源，投资回报率低。
竞争力下降：高效的算力利用率是企业保持竞争力的关键。
算力利用率低会使企业无法及时响应市场变化，降低企业竞争力。
另外，低算力利用率还会导致能源消耗和碳排放增加，对环境产生不利影响。
如何才能提高算力利用率？提高计算集群的算力利用率涉及软硬件、网络及训练策略等多个层面。
先说硬件配置。
使用高性能计算节点，如专业的AI芯片或高端GPU，以确保单节点的计算能力最大化。
同时，根据AI训推任务的需求，合理配置服务器的内存、存储和I/O性能，别让哪个环节成了“拖油瓶”。
软件与算法也不能落下。
训练时必须得用上更高效的深度学习框架，如TensorFlow、PyTorch等。
另外，还要对算法进行并行化处理，以充分利用多核处理器及多GPU优势。
再来说说网络性能。
需要采用高带宽、低延时、低抖动、低丢包率的先进网络，并配置网络负载均衡策略，才能让数据跑得又快又稳。
如联想HPC、智算集群就采用了高效的InfiniBand、RoCE网络，以充分满足AI大规模并行计算要求。
分布式训练策略也得安排上。
采用数据、模型或流水线并行等分布式训练方式，并采用更高效的资源管理与调度器、利用缓存机制及训前预热策略、通过调整及优化超参数等措施，也可以显著提升算力集群的性能和效率。
在具体实施时，企业会遇到哪些挑战？首当其冲的是技术方面的拦路虎。
企业会遇到异构算力整合及协同，跨物理资源、跨芯片、跨节点，甚至跨集群的资源池化、算力扩展等问题。
其次，管理方面的挑战也让人头疼。
如何根据任务需求动态地调度和分配算力资源，同时避免资源的浪费，简直就像一场算力拼图游戏。
最后就是“成本“这座大山。
要提升算力利用率，不管是软件、硬件、人员培训、运营、维护等等，都需要有”钞能力“才行。
联想是如何为企业解决这些问题的？作为中国领先的智能IT基础设施提供商，联想为了企业能高效利用基础设施加速智能化转型也是操碎了心。
今年以来，联想不断完善“全栈混合AI”战略布局，在AI终端、AI基础设施和AI解决方案与服务等领域持续发力。
特别是在AI基础设施领域，联想推出了联想万全异构智算平台。
联想万全异构智算平台是AI 2.0时代联想中国基础设施战略框架的核心。
该平台既可以自动完成AI计算并发布模型或发布推理服务，又可以实现对数据和模型优化，智能计算、科学计算（HPC）、通用计算等算力匹配，管理调度及对训练和推理过程的监控。
而且，平台还特别贴心地给专业AI开发用户留足了手动深入调整计算过程的空间，包括工具和模型的选择、算力配置的调整、对任务的定制化监控等，真真做到了“我的地盘我做主”。
具体而言，联想万全异构智算平台集成了算力匹配魔方、GPU内核态虚拟化、联想集合通信算法库、AI高效断点续训技术、AI与HPC集群超级调度器等五大创新技术。
这五大技术在基础设施层面可显著提升算力利用率和可用性。
对于用户而言，则可从不同方面帮助用户提高应用部署速度和应用门槛，降低业务TCO（全周期使用成本），让用户用起来“如有神助”，省钱又省心。
联想万全异构智算平台是如何帮助企业提升算力利用率和可用性的？联想万全异构智算平台集成的五大创新技术里，有四项技术聚焦在帮助企业提升算力利用率和可用性的算法创新。
其中，在GPU内核态虚拟化方面，联想通过对算力和显存精准隔离算法、驱动层资源调度、颗粒度精细管理三大革新，已经将GPU虚拟化效率提升至95%，极致情况下可达99%以上。
在联想集合通信算法库方面，联想通过对网络通信架构的调优，使AI训练效率相对业界领先方案进一步提升10%-15%。
而对于集群AI训练中的故障中断问题，联想积累了全面的AI训练故障特征库，并对断点续训做了数据多级备份、AI预判及综合监控能力提升等三方面革新。
这样一来，就实现了AI训练分钟级续训，预计不久将实现秒级续训。
最后是超级调度。
联想的异构集群超级调度器架构在AI的K8S和HPC的Slurm调度之上，可对所有类型的计算任务全面监控并自动实现AI节点和HPC节点的扩缩容，彻底破局算力孤岛，提升算力利用率和可用性。