(图片来源网络,侵删)
在机器模型训练计算时大规模的GPU集群算力支持就显得尤为重要,但是怎么判断机器是否支持GPU呢?或者明明有GPU的资源为什么跑代码模型却依旧走的CPU。1.判断机器硬件支持安装命令:pip install nvidia-ml-py3执行命令:nvidia-smi2.安装相关pytorch软件例如pytorch torchvision torchaudio等库常规安装,然后用python -c "import torch;print(torch.cuda.is_available())"判断cuda是否被支持GPU,结果是False。如下图:果然很诡异神奇,最后想到可能是国内镜像的原因。3.下载pytorch的gpu版之前用pip或者conda安装时总是cpu版,可能镜像原因最后去pytorch(https://pytorch.org/get-started/locally/)官方去下载,如下图:选择符合自己机型操作系统版本出现最后的命令执行:conda install pytorch torchvision torchaudio pytorch-cuda=11.7 -c pytorch -c nvidia再看结果现在是True,大功告成4.运行AI绘画的Stable Diffusion模型代码尽情享受GPU集群威力depth image本地CPU下15~20分钟,在GPU集群下就几秒的时间,至此从硬件到模型部署结果整个链路摸完一遍。
0 评论