AI确实可以改变世界。对于一个音乐爱好者,AI能帮助做什么呢?其实上上目前AI确实已经能做很多事情了,这就是今天要介绍的一个大模型AITabs。AITabs是由专业人士创建的基于Transformer的混合多模态模型,使用各种Transformer模型解决音乐信息检索领域各类专业问题,依靠模型生成相应的相互影响的信息依赖关系。这是一个专注于音乐的人工智能驱动的多模式项目。 可以根据任何歌曲,自动生成其和弦、节拍、歌词、旋律和标签。技术架构其底层的技术架构如下:U-Net用于从原始音视频源中分离出网络模型用来进行各类任务,包括Pitch-Net, Beat-Net, Chord-Net和Segment-Net均为基于Transformer的专业大模型。除了建立频率和时间之间的相关性之外,最重要的是可以建立不同网络之间的相互影响。整个人工智能驱动的流程是在aitabs.py,而各种网络结构模型可以参考model文件夹。U-Net和Segment-Net使用音频的stft频谱作为输入。Beat-Net使用鼓、贝司和其他乐器的三个频谱图作为输入,Chord-Net使用背景音乐的一张频谱图。功能和弦:音乐和弦检测,包括大调、小调、7、maj7、min7、6、m6、sus2、sus4、5、倒和弦。确定歌曲的调子。节拍:音乐节拍、强拍检测和节奏 (BPM)跟踪音高:跟踪音轨中旋律的音高。音乐结构:音乐片段边界和标签,包括前奏、主歌、副歌、桥段等。歌词:音乐歌词识别和自动歌词到音频对齐,使用ASR(耳语)来识别声乐轨道的歌词。歌词和音频的对齐是通过微调wav2vec2预训练模型来实现的。目前支持英语、中文、西班牙语、葡萄牙语、俄语、日语、韩语、阿拉伯语等数十种语言。AI Tabs:使用和弦、节拍、音乐结构信息、歌词、节奏等生成可播放的乐谱,包括和弦图和六线五线谱,支持和弦、节奏、歌词的编辑功能。其他:音源分离、速度调节、变调等。模型和试用模型目前在Github(github:/AIAudioLab/AITabs)开放了源代码,为Python编写,目前不确定是不是可以完整运行的代码(后续有空可以可以研究一下)。另外提供了网站,可在其站点(lamucal.ai)上试用基本功能,虫虫试了一下功能都是正常而且强大。只需通过其搜索框搜索歌曲的名称,比如搜索刘欢的《好汉歌》然后选择其结果(油管来源)中对应的歌就会自动启动AI模型生成各种音乐元素,还可以选择生成歌词。最后就会给出一个综合界面,可以选择旋律和Tabs标签页显示相关内容,其右上角有个V选择,可以选择吉他,钢琴等乐器种类生成对应乐器的乐谱表示形势。最右边为播放按钮、速度按钮和其他功能按钮(有些需要下载其APP才能用)有试了下其他歌:是否要生成歌词和旋律模式:目前发现一个问题就是由于歌曲来自油管,可以进行AI生成操作,但是不是播放,使用特殊方式可以播放时,歌词、曲谱都是和播放同步进行的,对于不懂乐谱和乐器同学,那他来当卡拉ok看歌词也是棒棒的。最后试了一首老歌《红梅赞》,播放一下,特别选了一个老外来唱,歌词也是跟上调子的。
总结AI改变世界,主要是对行业和专业领域的革命性革新,而不仅仅是对个话、生成一个图片,生成一个视频。本文提到这个模型就是在音乐领域的突破,确实比较震撼,希望各个专业领域类似的模型都能百花齐放,一起迎接AI的春天。
0 评论