蓝宝石绘图显卡语音生成教程(蓝宝石绘图显卡语音生成)「蓝宝石显卡怎么设置」

蓝宝石绘图显卡语音生成教程(蓝宝石绘图显卡语音生成)

过去两年涌现了非常多的AI绘图工具,不过就功能的完整性和出图质感来看,全球范围内除了midjourney外应该就是Stable Diffusion(下文简称SD)最强大了,并且SD还是开源免费的,可部署到本地使用。
AI绘图相当考验显卡的性能,估计也有不少人都听过“A卡玩游戏,N卡生产力”的说法,那么,到底能不能用A卡来玩AI绘图呢?答案是肯定的,这篇文章就分享一下借助A卡在本地部署SD绘图的过程,另外也一并分享一下如何在本地使用AI文字转音频工具ChatTTS生成极度接近真人的语音。
蓝宝石7800XT极地版显卡简介我使用的这款AMD显卡是蓝宝石的RX 7800XT 16G 极地版,采用AMD新一代架构RDNA3,显卡流处理器为3840个,核心频率在2169到2475MHz之间,显存采用256bit GDDR6,容量也有16GB,整体来看能耗更低性能更强。
此外,蓝宝石作为A卡一线品牌,在制造工艺和架构设计上比普通品牌也更有实力,像这款7800XT就搭载了高性能飞翼轴流扇、五热管散热系统及全尺寸金属背板,除了提供出色的散热性能保障高负载运行下的稳定性,也可以更好地防护物理碰撞带来的损害。
在实际游戏场景中,这款显卡的温度一直控制在70℃以内,并且没有明显的噪声和啸叫干扰,作为入门级4K显卡,在4K分辨率下玩《黑神话·悟空》,开启FSR和帧生成后平均FPS也能达到80左右。
从游戏体验来看, 蓝宝石7800XT极地版的性能是毋庸置疑的,而通过专业的生产力性能软件PCMARK10测试,最终整机综合得分为10118,照片编辑分数为25086,渲染与视觉变化分数为27148,视频编辑分数为9516,可见这款显卡在剪辑、修图、渲染等专业场景中也同样有用武之地。
这里顺便提一句,蓝宝石7800XT本身配置就比较高,没有什么需要挑剔的地方,本地部署AI大模型不管是绘图还是生成视频、音频,都非常吃显存,所以还是建议选择显存16GB的显卡。
A卡部署Stable Diffusion本地绘图DirectML是一个用于机器学习的DirectX12库,它能够支持AMD显卡加速。
在A卡平台上部署,需要用到DirectML版本的SD,主要步骤如下:①在电脑上准备DirectML SD环境。
这个过程稍微有些复杂,不过DirectML是微软联合AMD专门推出的A卡本地部署AI大模型解决方案,所以在微软官网可以查找相关教程,至于SD的安装包,则需要在软件项目托管平台下载,不方便放链接,可以自己搜。
②安装必备工具Python和Git,需要注意的是Python得是支持torch的Python 3.10.6版本,这两个工具都有对应的官方网站可以下载。
③安装AMD HIP SDK程序,可以在AMD官网下载,没有安装的话在运行的时候也会提示,可直接跳转下载。
④做好前面的准备工作,就可以进入正式部署环节了,建议单独建一个文件夹比如“AMD Stable Diffusion”用来存放SD本地文件,注意不要用英文。
⑤在新建的文件夹中运行Windows命令提示符,方法有几种⑥输入Direct ML Stable Diffusion webUI的安装命令,点击回车键安装,安装完成后在“AMD Stable Diffusion”文件夹找到webuser.dat双击,进入主程序和模型文件安装,这里是自动运行。
⑦完成之后在浏览器输入local URL即可进入界面,local URL可直接复制。
前面这些步骤是完全自己部署,其实还挺复杂的,即便是对照操作也不一定能理解,门槛比较高,所以个人还是推荐一步到位的方法,直接使用秋葉大佬的安装包。
网上有很多资源分享,各种工具组件都集成了,解压之后找到“A绘世启动器”双击就能进入控制界面,继续点击右下角的一键启动就能打开WebUI绘图界面。
SD WebUI界面就是下面这个样子,控制参数还蛮多,新手需要耗费一些精力尝试熟悉,不过相对comfyUI来说已经简单许多了。
借助SD本地模型,可以绘制自己喜欢的壁纸、首饰服装穿戴效果图、装修风格参考图、建筑效果图等,对于降低成本、提高效率来说帮助还挺大,不过需要搭配合适的模型才行,个人觉得难度比部署时大得多,这就得自己不断琢磨研究了。
附文字转语音模型推荐其实A卡不仅支持SD本地模型,很多其他实用大模型也是可以本地部署的,部署成功之后可以持续免费使用,只要电脑不出问题那就是一劳永逸了,这里再推荐一个可本地使用的文字转语音大模型。
ChatTTS文字转语音这是一个专门为对话场景设计的文本转语音模型,支持英文和中文两种语言,具备中英混读和多人说话的能力,能够预测和控制细粒度的韵律特征,包括笑声、停顿和插入词等,生成自然流畅的语音,被很多人认为是目前最强的语音模型。
本地部署需要显存大于4GB的显卡,同时要用到ffmpeg(一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序),过程还是有些复杂,不过网上有098版本的懒人整合包,提供了ffmpeg程序包和安装教程,难度降低很多。
一键文字转语音的工具早就有了,而且输出速度很快,只不过很多都是费用高,语气呆板。
ChatTTS语音模型的优势不仅在于它开源、免费,相对于一般的文字转语音工具,它的音色、语气更加真实,调节的参数空间更大,可用于各种短视频、宣传片、纪录片的配音,甚至可以为虚拟人物定制音色,缺点就是生成速度慢,调节参数费时间,需要较多的精力不断尝试。

联系我们

在线咨询:点击这里给我发消息