“造”大模型,有卡就行? 关键是,卡要怎么用。
大模型越来越火,不少手里有卡的伙伴给鹅提“需求”: 用自己的卡能不能组建大模型算力集群? 收到,安排。
最近, 腾讯云推出专有云智算套件 ,集合了腾讯云高性能网络IHN (星脉网络) 、高并发文件存储系统TurboFS、算力加速框架Taco-LLM等核心能力。 结合腾讯云专有云平台TCE, 支撑企业用自有硬件搭建计算集群,在私有算力环境下训练大模型。
一句话划重点: 卡,自己的。计算集群,也自己的。工具,鹅给的。
但组建算力集群不是简单“盖楼”,算力并不会随着卡的数量线性增长。存储、网络、计算,共同形成了集群的“木桶短板效应”。 为全面消除集群“短板”,腾讯云智算套件提供了算、存、网一体能力,主打一个“整整齐齐”:
//看存储 (TurboFS):
一分钟完成TB级CheckPoint 在大模型训练时,数据存储约占整体工程量的30%。 存储就像一间仓库,GPU除了在里面存取“原料” (读写计算结果) ,也会定期保存工作日志 (CheckPoint检查点) ,以备不时之需 (故障检查、重启训练等) 。 随着模型参数和计算集群越来越大,动辄数千张卡同时读写,存储不靠谱,GPU性能再强也白搭。 腾讯云高性能文件存储系统TurboFS拥有 TiB/s级别总读写吞吐和百万OPS的每秒元数据性能, 在私有算力环境下,可以 支撑4000卡在一分钟内完成TB级CheckPoint , 抬高了海量数据存储的读写性能天花板。 //看网络 (IHN星脉网络): 网络通信效率提升60% 简单来说,GPU在大模型训练中只干两件事:埋头工作 (计算) 、等待拉通 (计算结果同步) 。 在执行一次计算任务时,集群通信时间最高占比可达50%。 网络不给力,高价买来的GPU只能“干等着”。等待,就意味着浪费。 不久前,腾讯自研星脉高性能计算网络全面升级,相比上一代: 网络通信效率提升60%,让大模型训练效率提升20%。 大模型训练再提速20%。
腾讯星脉网络2.0来了 //看计算 (TACO-LLM): 模型推理速度提升2倍 训练框架就像一张“蓝图”,可以指导GPU更高效完成任务。 Taco-LLM适配主流训练框架、开创混和序列并行模式、率先跑通FP8训练精度,并适配全部国产模型, 能够为不同集群制定最优训练方案,让所有代次的GPU“应用尽用”。 在模型推理时, Taco-LLM的预测采样方式也突破GPU自回归限制。 即GPU不再每次只生成一个结果 (Token) ,而是把多个结果交给目标大模型“验算”。由于GPU单次拉起成本相同,哪怕只“猜中”一个,也是“赚到”。 为配合预测采样, Taco-LLM还改变了GPU的连续显存模式, 采用分区 (block) 存放,并为历史结果分配“专用区”,避免了显存连续分配释放造成的资源浪费。 突破GPU自回归限制和连续显存瓶颈后,让模型推理速度提升了2倍。 去年,腾讯云发布新一代HCC高性能计算集群,通过自研服务器、自研网络、存储架构等软硬件设施,让万亿参数大模的训练时间从50天缩短至4天。 腾讯云发布:大模型算力集群。
此次专有云智算套件的发布,正是基于公有云算力集群HCC的成熟实践。 美团、小红书等头部互联网企业,以及百川智能、MiniMax、智谱科技、元象…… 90%的头部大模型企业都选择了腾讯云。 面向有私有算力环境下训练大模型的伙伴,我们会做好从公有云到私有云的“搬运工”,帮助大家搭建好AI大模型基础设施。 搭建自己的大模型计算集群,就从这里开始。
0 评论