当人们还沉浸在ChatGPT的强大语言理解能力之时,OpenAI已经将“Sora”这颗炸弹投入到AI圈的海洋里了图1:Sora生成的短视频(来源:网络)前段时间,OpenAI公布文生视频模型“Sora”,被团队定位为世界模拟器,以虚拟的视频模拟世界万物的各种动向和情景从训练过程中,AI吸收到的数据不断使其理解更真实的世界,让它更能理解人类,提供更好的交互体验在Sora的消息出来后,三六零创始人周鸿祎称,Sora意味着AGI(通用人工智能)的实现将从10年缩短到两三年马斯克更是在社交媒体中评论:“gg humans”(人类愿赌服输)Part.1“Sora强在哪?”Sora的独特之处在于其强大的功能,能够响应文本指令创作出长达60秒的高清视频,画面流畅度、细节处理、背景角色逼真度、视频稳定性都做的相当不错,甚至可以“以假乱真”换句话说,它更聪明,更会表现真实世界Sora除了能够根据文本指令生成视频之外,还能让静态图像“动起来”,精准地展现微小细节来使图像内容动态化图2:Sora生成动态图片(来源:网络)OpenAI官网还发出一系列Sora生成的视频及提示词,当CGTN将同样的提示词给到同类文生视频模型Pika、Runaway、Fliki,其效果对比也让公众再次感受到Sora的强大图3:Sora和其他文生视频模型在同一提示词下生成的视频(来源:网络)Sora的出现,也让视频创作者们生出危机感,尤其是影视、艺术、自媒体行业的从业者,逼真的画面内容使内容创作的用户门槛不断降低,网络信息鱼龙混杂虽然AI受到了许多抗议,但AI的发展似乎从未停止而Sora的出现必然会引发国内外AIGC的研发、投资热潮,不仅有望树立行业新标杆,更会推动AIGC领域技术革新图4:Sora生成视频截图(来源:openAI)Sora采用了Diffusion Transformer模型,组合了扩散模型(DALL-E3)和转换器架构(ChatGPT)OpenAI大方地公开了Sora的技术方案:采用可变持续时间、分辨率和高宽比的视频和图像上联合训练文本-条件扩散模型利用了一种在视频和图像潜在代码的时空块(spacetime patches)上工作的transformer架构研究团队发现块(patches)是一种高度可扩展且有效的表示形式,可用于在不同类型的视频和图像上训练生成模型在较高的层次上,将视频压缩到较低维的潜在空间,把这种表现形式进一步分解成时空块,实现了将视频转化为块可以给定输入噪声块(以及文本提示等调节信息),用来被训练,来预测原始的“干净”块图5:Sora模型技术演示(来源:OpenAI)并且,Sora是一个扩散变压器Transformer在各个领域都表现出了卓越的扩展特性,包括语言建模、计算机视觉和图像生成而扩散变压器也可以有效地缩放为视频模型随着训练计算的增加,样本质量会得到显著提高图6:Sora样本训练演示(来源:网络)Sora也没有这么地“完美”,存在很多局限性,例如Sora无法准确模拟许多基本互动的物理现象,像玻璃破碎的过程;其次,让它表现吃东西,Sora也不一定给出正确的物体状态变化;再者,如果让Sora长时间生成样本,视频会出现不连贯现象、物体无故突然出现等情况图7:Sora生成视频:玻璃破碎(来源:openAI)Part.2“国内追赶得上吗?”目前Sora还未真正落地市场应用,只是作为一个技术前瞻就已经再次让人感受到了OpenAI在AI大模型领域的绝对地位但也有人认为Sora的商业化还需要使用更多算力、数据等资源去优化打造,能否实现短时间内大规模商用还未有定论Sora的出现也让不少国内AI行业创新者看到了差距,产生了危机感随着ChatGPT的爆火、大模型应用风口来临,文心一言、讯飞星火、通义千问等等众多大厂自研大模型纷纷冒头对于文生视频,早在百度世界2023大会上,文心大模型4.0展现了不俗的AI视频生成能力,插件“一镜流影”可以根据文本生成AI视频,从主题词、语句、段落等文字描述内容,实现一键创作视频,听说效果还不错图8:文心一言文生视频截图(来源:腾讯科技)根据去年11月发布的《中国AI大模型创新和专利技术分析报告》,我国大模型专利申请总数已突破4万余件,展现出强劲的增长势头周鸿祎曾说国内大模型发展水平表面看已经接近GPT-3.5了,但实际上跟4.0比还有一年半的差距他相信OpenAl手里应该还藏着一些秘密武器,无论是GPT-5,还是机器自我学习自动产生内容,包括AIGC当前,国内关于文生视频模型的相关专利不多,使用壹专利简单统计了一下,国内聚焦该领域较多的企业有腾讯、百度、平安保险、有竹居、达佳互联、字节跳动等等,清华大学、中山大学等高校也有涉猎该领域图9:文字生成视频模型相关专利申请人(机构树)排行与此同时,我国的文生视频模型技术也在蓄势待发不久前,清华大学公开了一件“一种定制化多主体文生视频方法、装置、设备及介质”发明申请(公开号:CN117496020A),通过多种损失对文生视频模型的参数进行优化,使优化的模型基于文本描述生成视频中的图像时,文本描述与定制化主体保持一致,且在每个主体在生成过程中的特征不会发生混淆的同时消除合成痕迹,有效提升了基于文本描述生成的多个定制化主体视频的准确性和合理性图10:“一种定制化多主体文生视频方法、 装置、设备及介质”专利人类对AI的探索应用无穷无尽,新一波AI风潮已然展开,随着AI生成视频技术不断被挖掘,各大厂商多模态大模型的商业化应用争夺战已正式拉开序幕壹专利是奥凯基于独有的奥凯大数据中心,通过专业咨询团队加以数据清洗规整及自主研发的,专注专利检索、分析、预警等功能的检索分析平台广州奥凯壹专利,国产创新好工具
全、准、快、易、智
(图片来源网络,侵删)
0 评论