(图片来源网络,侵删)
现在关于AI的工具是越来越多,随着AI的出现,大家肯定也听到了很多关于某某模型的信息,各厂家之间也是在对比模型之间的性能,把它换种说法,有点类似在软件和系统上,讨论使用哪种内核的味道了训练模型一般要用到大量的算力,还要放在专门的服务器上,而训练好的成果,就像是炼制好的丹药,在精简和用户的设备上也能跑,今天我们要说的,是在音频识别上面一款融合了众多优点的模型启动器——faster-whisper-GUI听到Whisper,这个大家可能有点熟悉,这是OpenAI做的一个神经网络模型,可以在本地实时语音转文字,用来翻译和做字幕等,之前给大家介绍过一款叫做Constme-Whisper的软件,可以快速进行离线语音文字识别,还有GPU加速等等而faster-whisper-GUI增添了更多的特性,可以快速把音视频文件转成srt/txt/smi/vtt/lrc,支持Demucs、FastWhiper和whisperX、VAD-model这些技术,简单来说,支持的可调整的选项要比之前推荐的工具更多一点由于这类工具离线处理的特点,所以体积都比较大,faster-whisper-GUI的本体有1.6个G,安装完之后的占用又是6个多G,而且还不包括后续添加模型的大小,建议大家体验的时候,装在空间富裕的盘里如果是分离音频和背景音乐的话,直接把文件丢进来就行,试了一下效果还不错,也可以单独设置输出的内容其他的就需要加载一下额外模型了,把模型加载的时候需要注意,有个处理设备的选项,CPU还是CUDA,如果你用的不是英伟达的显卡,选择自动就好了,不然会提示加载失败模型也有多重选择,如果上面带有V3标志,记得把这个开关打开来试试语音转文字,如果你觉得自己的设备处理等待时间有点长,在软件执行的时候可以挂在后台和切换到其他界面,在它的详情页面能看到输出的具体信息,它的正确率还是比较高的,中英文混合与首字母大小写这些细节都有这类机器识别和人一样,识别率还不能做到100%正确,识别完之后,会有一些错误需要手动调整,在faster-whisper-GUI里,它会自己跳转到字幕制作的界面,可以快速浏览调整,在这里分割不同说话人的文本等等在设置里面,还有许多细节可以调整,调整音频的默认语言和翻译,以及各种防止幻听的参数这个功能在一些视频编辑软件还是需要收费的,或者需要云端处理,识别的准确率也就那样有了这类软件,就可以自己手动操作了,有音频转文字编辑需求的朋友可以说是常备了~
0 评论