随着OPENAI在2月16日推出视频生成模型SORA,文生视频领域开始受到各界的广泛关注。一时间各行业都在预测在人工智能的加持下,未来文生视频技术可能带来的行业冲击。不知道又有多少朋友跟我一样在惊叹OPENAI这家美国公司领先的技术之外,也很好奇国内相关技术的情况以及可能出现的应用产品。考虑到通常大公司在推出产品之前都会优先进行专利申请,也就能从其专利技术中找到这些公司在相关技术上的研发方向。出于上述目的,经过我在专利数据库的检索后,还真发现一些有意思的应用方向。先来看一篇华为在2020年05月30日申请的名为“一种视频生成方法及相关装置”的专利,这件专利技术主要是用在手机终端上的,可以基于用户的相册、文字输入等方式来生成相应的视频。专利中给出了三种应用场景,包括基于人脸识别的视频生成、基于用户输入的视频生成、基于用户偏好的视频生成。这里以第二种文生视频为例,原文如下图所示:示意图如下所示,这项应用可能更像是一个基于手机相册的应用软件,功能上来看除非生成的视频非常逼真,否则只能算是一个中规中矩的应用了。第二件是科大讯飞在2023年08月14日申请的相关专利,摘要如下所示在专利的实施例中,其给出了操作页面的示意图,可以看到该设备的操作界面允许用户在该页面上传原始图像、输入描述文本、配置视频的属性等,用户完成配置后,设备即可基于上述配置来执行视频生成。从这几个示意图中,我们还可以得出一些有用的信息:(1)首先,从界面的成熟度来看,科大讯飞大概率已经做出了这项文生技术功能,并且会被应用在其已有产品“讯飞智作”上;(2)其界面上的视频时长可以选择30秒、1分钟、2分钟,而我们知道这次的OPENAI推出的SORE目前最多也就生成1分钟的视频,因此,讯飞这项技术中生成的视频大概率属于相对简单的一类视频,这点从专利附图中的视频截图展示可以看得出来,其更像是用于演示的动画视频;(3)虽然从这件专利来看,讯飞通过文本和图像等所生成的视频在视觉上相对一般,但从应用场景来看,其能够使得更便捷地来生成演示类视频,可见讯飞也是看到了文生视频技术能够快速在这个场景下进行应用的前景。接下来介绍的这篇就更加贴近国内文生视频的应用了,这是由虚空漫步(苏州)科技有限公司在2023年08月12日申请的专利,其中,用户可以复制小说文本,一键生成小说推文视频,大大提高了视频制作效率。专利附图中还给出了一个小说推文视频的截图展示,看着这个效果有没有瞬间感觉一种在抖音上看小说视频的感觉。别的不说,至少从应用的方向上来说还是非常实用,期待能进一步改进视频效果。最后一件,由腾讯在2023年03月20日申请的名为“一种视频的剧情改编方法、装置、电子设备和存储介质”,看着这个名称是不是就能感觉到这个专利的脑洞之大。来看看专利实施例中是怎么写的,首先用户可以选择需要进行AI剧集生成的集数。接下来的界面中,用户可以选择剧情走向的关键词,或者直接自己输入剧情文本:然后可以选择剧情风格:甚至可以替换剧情中的角色或者场景:之后再设置剧情时长,结局类型,最终生成相应的剧集。看完上面的专利示例,再考虑到这件专利的申请人是腾讯公司,不知道各位有没有跟我一样瞬间开始期待以后的腾讯视频能真的能做到这种自主的视频剧情改编。文生视频技术到腾讯这算是弄出新花样了,咱不说要实现这个功能需要多强的技术支持,就说其能想到向这个方向去应用发展就不得不让人感慨了。结语虽然目前国内在视频大模型以及算力方面与国外存在一定差距,导致生成视频效果达不到SORE的程度,但从文生视频的应用上来看,国内目前确实从专利上给出了一些可行的方向,也具有不错的应用前景和市场,从行业的技术需求来看,可能实用性相比于视频的视觉效果更加重要,就比如前面讯飞的演示视频生成方案,实用性上就能很好的解决很多公司当下需要快速对某些产品进行视频演示的需求。总之,期待能够很快看到国内的相关应用产品。
0 评论