多场文本时间视频LLMTALC(视频论文模型文本场景)

一、结论写在前面基于扩散的生成建模的最新进展已经推动了文本到视频(T2V)模型的开发,这些模型能够根据文本提示生成高质量的视频
大多数这些T2V模型通常产生单一场景的视频片段,描绘实体执行特定动作(例如,“一只红熊猫爬树”)
然而,生成多场景视频是至关重要的,因为它们在现实世界中无处不在(例如,“一只红熊猫爬树”接着“红熊猫在树顶睡觉”)
论文提出了TALC,一种简单有效的方法来改进多场景生成的文本到视频(T2V)模型
具体来说,它融入了视频片段与场景特定描述之间的自然对齐知识
此外,论文展示了使用TALC微调后的T2V模型能实现高视觉一致性和文本遵循性,而基线方法在这两个指标中至少有一个存在缺陷
鉴于其设计,论文的框架可以很容易地应用于任何基于扩散的T2V模型
一个重要的未来方向将是扩大多场景视频-文本数据的规模,并在T2V模型的预训练期间部署TALC框架
项目网站是https://talc-mst2v.github.io/
二、论文的简单介绍2.1 论文的背景生成模拟物理世界的视频一直是人工智能的长期目标[1, 2, 3, 4]
在这方面,通过在互联网规模的图像、视频和文本数据集上进行预训练,文本到视频(T2V)模型已经取得了快速进展[5, 6]
先前的工作[7, 8, 9, 10, 11, 12]主要集中在对配对的视频-文本数据[14, 15]上的条件去噪扩散概率模型[13]进行训练
训练后,这些模型允许通过从训练好的扩散模型中采样,根据文本提示生成视频
然而,大多数开放模型,如ModelScope[10] VideoCrafter [16, 17],OpenSora [18],都是用单一场景的视频-文本数据集[14, 19]进行训练的,这些数据集广泛可用且易于获取
然而,现实世界的场景通常需要从多场景描述中生成多场景视频(例如,场景1:“一只考拉在树上打盹
”场景2:“考拉在树上吃叶子
”)
在这种情况下,生成的视频应该准确地描绘事件的时间顺序(例如,场景2跟随场景1),同时保持视觉一致性,意味着背景和实体应该在场景之间保持一致
虽然高性能的文本到视频模型如Sora [4]可能能够生成多场景视频,但论文指出,它们是闭源模型,经过大量计算资源训练,缺乏关于模型设计、训练协议和数据集的足够细节
在这项工作中,论文提出了一种补充方法,并解决了有效利用基础T2V模型进行多场景视频生成的挑战
多场景文本到视频生成与长视频合成不同,后者的目标是对单个事件的生成视频进行插值(从几个帧到许多帧)[8]或创建连续模式[11]
先前的工作[20, 9]使用变压器[21, 22]为给定场景自回归生成视频帧
然而,随着文本描述和先前生成视频的视觉标记[23]的历史长度增加,他们的模型很难可靠地生成多个场景(例如,根据场景1、2、3的视频和描述生成场景4)
其他工作[24]利用潜在扩散模型[25]自回归生成视频帧,根据生成视频和场景描述的整个历史进行条件化
然而,这种方法(a)由于重复采样而缓慢,(b)每个场景描述只生成一个帧,并且(c)仅在有限的卡通角色[26, 27]上显示工作,而不是现实世界中广泛范围的视觉概念
在这项工作中,论文的目标是使用能够为广泛视觉实体和动作产生内容的扩散文本到视频生成模型,以端到端的方式生成多场景视频
如图1(a)所示,对于场景描述生成多场景视频的朴素方法是将T2V生成模型基于合并的描述进行条件化
在这种设置下,扩散模型处理整个场景描述,缺乏关于生成视频中预期事件时间顺序的任何信息
因此,论文发现这种方法导致文本-视频对齐不佳
如图1(b)所示,另一种方法独立地为单个文本描述生成视频,并在原始输入空间中沿时间维度将它们连接起来
虽然这种方法实现了场景描述与特定场景视频段之间的良好对齐,但生成的视频在实体和背景外观方面缺乏视觉一致性
先前的工作[28, 29]通过利用大型语言模型[30]中的实体、背景及其运动的知识来生成多场景视频
然而,这些视频是独立为每个场景生成的,然后进行合并
此外,这些方法没有提供从真实世界多场景视频-文本数据中学习的方式
为了解决这些挑战,论文提出了TALC(时间对齐字幕),这是一个简单而有效的框架,用于生成一致且忠实的多场景视频
如图1(c)所示,论文的方法将T2V生成模型与多场景视频和多场景描述之间的时间对齐知识相结合
图2:多场景视频生成基线的示例
(a)在合并的描述上生成视频,导致文本-视频对齐不佳
(b)为单个文本描述生成视频并沿时间维度连接它们,导致背景一致性缺乏
(c)论文的方法(TALC)增强了场景级别的文本-视频对齐并保持背景一致性
具体来说,TALC将早期视频帧的视觉表示基于早期场景描述的嵌入,同样地,它将后期视频帧的表示基于后期场景描述的嵌入在时间维度上
此外,T2V扩散架构中的时间模块允许视频帧之间的信息共享(前半部分和后半部分)以保持视觉一致性
因此,TALC在同时向扩散模型提供所有场景描述的同时,增强了场景级别的文本-视频对齐
此外,论文的TALC框架可以通过真实世界的多场景数据增强多场景文本到视频的生成能力
2.2 论文的方法2.2.1 TALC:多场景T2V生成的时序对齐标题大多数现有的T2V生成模型[10, 16, 6]都是在大规模短视频-文本数据集(10秒-30秒)上训练的,如WebVid-10M [14]
在这里,数据集的每个实例都包含一个视频和一个人类编写的视频描述
这些视频要么缺乏多个事件的描绘,要么视频描述没有涵盖视频中的广泛事件集,而是专注于展示的主要事件
因此,预训练的T2V生成模型只合成描绘单个事件的单个视频场景
论文提出了TALC,一种基于场景描述从扩散T2V生成模型生成多场景视频的新颖有效框架
论文的方法关注文本条件化机制的作用,该机制广泛用于现代T2V生成模型
具体而言,论文受到这样一个事实的启发:生成视频xj的各个部分应描绘场景描述yj中描述的事件
为实现这一点,论文确保生成视频部分的表示能够聚合来自场景描述的语言特征
2.2.2 基线方法在这里,论文描述了可以从给定的扩散文本到视频生成模型生成多场景描述视频的基线方法
2.2.2.1 合并标题在这种设置下,论文通过合并所有多场景描述来创建一个单一标题
具体来说,多场景描述可以写成单个提示
虽然这种方法在单个提示中提及了事件的时间顺序,但T2V模型无法理解两个事件之间的时间边界
2.2.2.2 合并视频在这种设置下,论文为每个场景描述单独生成视频,然后在原始输入空间中将它们合并
最后,论文将单个视频拼接在一起以合成整个视频
在这个过程中,多场景视频的各个部分紧密遵循场景描述,导致了高文本保真度
然而,由于生成的视频无法访问所有多场景描述(例如,场景2的视频不了解场景1的信息),因此整个视频的视觉一致性相当差
2.2.3 多场景视频-文本数据生成虽然论文的方法可以生成更好的多场景视频,但预训练T2V生成模型的文本遵循能力有限
这是由于在预训练过程中缺乏多场景视频-文本数据
与单视频-文本数据集不同,多场景视频-文本数据集并不广泛可用,且难以为模型训练而策展
这归因于生成高质量字幕需要大量人力,费时费力
先前的工作如ActivityNet[39]为长视频中描绘有用动作的特定视频场景策划了人工标注的字幕
然而,视频场景要么重叠,要么在它们之间存在较大的时间间隙,这对生成的多场景视频之间的自然平滑过渡是有害的
因此,数据集中缺乏连续视频场景的高质量字幕,使其不适合T2V生成训练
为此,论文旨在创建一个真实世界的多场景视频-文本数据集,以便对预训练的T2V模型进行进一步训练
具体来说,论文利用多模态基础模型Gemini-Pro-Vision[40]的能力来生成高质量的合成数据,以增强视频-文本训练[41]
数据集:为了构建一个多场景视频-文本数据集,论文利用现有的包含自然(真实)视频和关联的高质量人类编写的摘要整个视频的标题的数据集
具体来说,论文选择了MSR-VTT [42]和VaTeX [43]
MSR-VTT中的大多数视频长度为10-30秒,而VaTeX由10秒长的视频组成
此外,MSR-VTT和VaTex中的每个视频分别包含20个标题和10个标题,其中随机选择一个用于多场景数据生成
如上所述,单个视频被切割成多个视频段,使用Pyscene库
在论文的实验中,论文保留前四个视频段,如果库生成了超过四个段,则丢弃任何额外的段
由于多场景标题的准确性和微调期间的计算需求受到场景数量的影响,论文选择将场景数量限制为四个进行实验
2.3 论文的效果2.3.1 文本到视频生成模型在这项工作中,论文利用ModelScope [10]和Lumiere [6] T2V模型进行多场景视频生成
在这里,ModelScope是一个包含视频编码器、文本编码器和去噪U-net网络的17亿参数的开源T2V模型
具体来说,它被训练为在WebVid [14]视频-文本数据集和LAION [48]图像-文本数据集的混合上生成16个视频帧
由于ModelScope的易用性和在先前工作中[28]的采用,论文的大部分实验都是在ModelScope上进行的
此外,论文还包含了Lumiere-T2V,这是一个利用时空U-Net去噪网络来生成高质量视频的模型
在这项工作中,论文包括了早期使用Lumiere的实验,以展示TALC方法在多场景视频生成中的灵活性
TALC与基础模型
论文的方法修改了传统的文本条件机制,使其意识到文本描述与单个视频场景之间的对齐
通过设计,TALC框架可以在推理期间应用于基础T2V模型,而无需任何多场景微调
因此,论文比较了从ModelScope和Lumiere T2V基础模型生成的多场景视频在三种设置下的性能:合并标题、合并视频和TALC
在此设置中,论文从ModelScope每场景生成16帧,从Lumiere每场景生成80帧
论文在附录§F中提供了更多关于推理的细节
使用TALC进行微调
由于基础模型是使用单场景数据预训练的,论文旨在展示当论文有访问多场景视频-文本数据时,TALC框架的有用性
为此,论文使用TALC框架对ModelScope进行多场景视频-文本数据的微调
作为相关的基线,论文还通过在原始文本空间中简单地合并特定场景的标题来微调ModelScope,而不使用TALC框架
在此设置中,论文对T2V模型每场景微调8帧,实例中场景的最大数量设置为4
论文在附录§H中提供了微调设置的进一步细节
推理设置与先前不进行微调的基础模型生成视频的方法相同
2.3.2 自动评估论文使用图5中的自动评估比较了基线(例如,合并标题和合并视频)与ModelScope和Lumiere的TALC框架的性能
TALC在没有进行任何微调的情况下超越了基线
在图5(a)中,论文发现使用TALC生成的基础ModelScope多场景视频的整体得分(视觉一致性和文本遵循的平均值)为68.6分,超过了使用合并标题(61.7分)和合并视频(67.5分)生成的基础ModelScope视频的整体得分
具体来说,论文观察到生成的视频的视觉一致性对于合并标题(91分)和TALC(89.9分)都很高,而对于合并视频则较低(65分)
这表明,为单个场景描述独立合并视频并不能在不同帧之间保留背景和实体外观
此外,论文观察到使用TALC的文本遵循性超过了合并标题14.8分,而文本遵循性在使用合并视频时最高,得分为70分
这可以归因于合并视频基线的设计,其中单个视频场景很好地遵循了特定场景的描述
因此,独立合并视频的方法可以被视为文本遵循度量标准的上限
在图5(b)中,论文观察到Lumiere T2V生成模型有类似的趋势
具体来说,论文发现TALC的整体得分超过了合并标题和合并视频4分和2分,分别
此外,论文观察到合并标题和TALC实现了高视觉一致性得分,而独立合并视频的视觉一致性较差
进一步,论文发现TALC在文本遵循性上超过了合并标题5分,而合并视频实现了最高的文本遵循性65分
这强调了模型更容易生成遵循单个文本脚本的多场景视频,而当模型一次性给出多个场景的描述时,文本遵循性会降低
使用TALC进行微调实现了最佳性能
早些时候,论文评估了TALC框架与基础模型的有用性
然而,基础模型是使用单一场景的视频-文本数据训练的,这可能限制了它们在多场景视频生成方面的能力
为了缓解这个问题,论文在多场景视频-文本数据上对ModelScope T2V模型进行了微调(§3.3)
具体来说,论文分别使用合并标题方法和TALC框架对模型进行了微调
在图5(a)中,论文发现使用TALC进行微调实现了最高的总体分数,为75.6分,相比所有基线
具体来说,论文观察到使用TALC方法进行微调的视觉一致性变化不大(89.9分 vs 89分)
有趣的是,论文观察到使用合并标题进行微调大幅降低了视觉一致性,差距为14分
这可以归因于缺乏关于视频场景与单个场景描述之间自然对齐的知识,这在合并标题过程中丢失了
此外,论文发现TALC微调模型的文本忠实度比TALC基础模型高出15.1分
同样,论文发现合并标题微调模型的文本忠实度比合并标题基础模型高出5.1分
这突出了使用多场景视频-文本数据对T2V模型进行微调最有助于提高其文本忠实度能力
细粒度结果
为了进行细粒度性能分析,论文在ModelScope上评估了基线和TALC框架在不同任务提示和场景数量下的视觉一致性和文本忠实度分数
论文在附录§E中展示了他们的结果
在论文的分析中,论文发现使用TALC进行微调在所有场景中都超过了基线,实现了最高的总体分数
此外,论文注意到在特定视觉上下文中包含不同实体的场景中实现了最高性能
进一步,论文观察到当任务提示变得更加复杂时,即来自真实视频的多场景标题,所有方法的性能都会降低
此外,论文观察到使用TALC进行微调在所有场景数量上都超过了基线,实现了最高的总体分数
具体来说,论文观察到随着生成的场景数量增加,合并标题和TALC框架的性能都会降低
总的来说,论文展示了TALC在视觉一致性和文本忠实度之间取得了良好的平衡,以生成高质量的多场景视频
2.3.3 人工评估表1:ModelScope生成视频的视觉质量的人工评估结果
论文观察到基础模型的生成视频的视觉质量彼此接近
然而,使用合并标题微调模型大幅降低了视频质量,而TALC微调模型保留了视频质量
TALC在人工评估中实现了最佳性能
论文使用人工评估比较了基线和TALC框架在ModelScope上的性能,如图6所示
论文发现TALC微调模型在总体分数上分别比合并标题和合并视频方法的基础模型高出12分和15.5分
此外,论文发现基础模型中的TALC框架在总体分数上分别比合并标题和合并视频方法的基础模型高出7.6分和11.1分
进一步,论文观察到基础模型中的合并标题方法实现了最高的视觉一致性分数,为96.5分,而基础模型中生成的合并视频方法的视觉一致性最低
此外,论文发现TALC微调和基础模型的文本忠实度都优于合并标题微调和基础模型
论文的结果突出了在多场景视频生成中包含视频场景与其场景描述之间的时间对齐归纳偏差的好处
生成视频的视觉质量
论文使用人工评估比较了表1中生成视频的视觉质量
论文发现基础模型的生成视频的视觉质量彼此接近
然而,使用合并标题微调模型大幅降低了视频质量,而TALC微调模型保留了视频质量
模型在基线和TALC框架下的得分范围为80.5至86.5
然而,论文观察到,使用合并后的字幕对模型进行微调所生成的视频的视觉质量相当差,得分为63.4分
这突出表明,通过在原始文本空间中简单地合并多场景视频文本数据来微调T2V模型,会导致生成的视频中出现不理想的伪影
最后,论文发现TALC微调模型(83.3)的视频质量得分与TALC基线模型(84.5)相似,表明论文的微调数据保留了模型预训练期间观察到的视觉质量
虽然论文的工作集中在多场景评估上,论文也在附录§I中进行了单场景评估
2.3.4 定性分析论文提供了使用ModelScope(使用TALC进行微调)和Lumiere(使用TALC的基线模型)生成多场景视频的定性示例,用于多种场景,如图12所示
论文的分析揭示,ModelScope和Lumiere都能够产生表现出高度文本遵循性和视觉一致性的多场景视频
考虑同一动物参与多个动作的情况(称为“一个角色多个上下文”)
ModelScope生成的视频成功地保持了同一动物在不同场景之间改变背景和动作
相反,Lumiere生成的视频展示了同一动物执行不同的动作,背景变化最小
论文相信这种区别归因于ModelScope使用TALC进行微调
考虑特定视觉设置中的不同动物(称为“多个角色同一上下文”),ModelScope和Lumiere都展示了在视频中保持背景一致性和紧密遵循提供文本的惊人能力
在论文的分析中,论文注意到从真实视频中提取的多场景字幕(称为“开放式字幕”)在不同场景之间表现出大量的变化
在这种情况下,Lumiere在没有微调的情况下使用时,在遵循文本方面遇到了挑战,而ModelScope实现了更高程度的文本遵循性,但也容易出现视觉伪影
论文标题:TALC: Time-Aligned Captions for Multi-Scene Text-to-Video Generation论文链接:https://arxiv.org/pdf/2405.04682
多场文本时间视频LLMTALC(视频论文模型文本场景)
(图片来源网络,侵删)

联系我们

在线咨询:点击这里给我发消息