谷歌提出了一种新方法 Dreamix，将 VDM 运用于视频编辑！

冷月飘霜 · 发表于 2023-2-7 10:12:41

去自机械之心

欢送存眷 @机械进修社区，专一教术论文、机械进修、野生智能、Python本领

女伶 href="https://www.taojin168.com" target="_blank">AIGC已经水了很短工妇了，呈现了文原天生图象、文原天生望频、图象天生望频等普遍的使用场景，现在google钻研院的一项新钻研可让咱们按照输出望频天生其余望频了！
咱们明白，天生模子战多模态望觉语言模子的平息已经为具备亘古未有天生实在性战百般性的庞大文原到图象模子摊平了门路。那些模子供给了新的创做历程，但是仅限于分解新图象而非编纂现有图象。为了化解那一差异，鉴于文原的直觉编纂办法能够对于天生战实在图象截至鉴于文原的编纂，并保存那些图象的一点儿本初属性。取图象类似，迩来文原到望频模子也提出了许多，但是使用那些模子截至望频编纂的办法却很少。
正在文原辅导的望频编纂中，用户供给输出望频和描绘天生望频预期属性的文原 prompt，以下图 1 所示。目标有如下三个圆里，1）对于齐，编纂后的望频应契合输出文原 prompt；2）保实度，编纂后的望频应保存本初望频的实质，3）品质，编纂后的望频应具备下品质。
能够瞅到，望频编纂比图象编纂越发具备挑战性，它需要分解新的行动，而不但仅是改正望觉表面。别的借需要连结时间上的不合性。因而，将 SDEdit、Prompt-to-Prompt 等图象级此外编纂办法使用于望频帧上不敷以完毕很佳的结果。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-1.jpg

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-1.jpg

正在克日google钻研院等揭晓正在 arXiv 的一篇论文中，钻研者提出了一种新办法 Dreamix，它受到了 UniTune 的启迪，将文原前提望频分离模子（video diffusion model, VDM）使用于望频编纂。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-2.jpg

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-2.jpg

论文地点：https://arxiv.org/pdf/2302.01329.pdf
名目主页：https://dreamix-video-editing.github.io/

文中办法的中心是颠末如下二种主要思路使文原前提 VDM坚持对于输出望频的下保实度。其一没有使用杂噪声动作模子初初化，而是使用本初望频的升级版原，颠末削减尺微暇战增加噪声仅保存高时空疑息；其两颠末微调本初望频上的天生模子去退一步提拔对于本初望频的保实度。
微调保证模子理解本初望频的下分辩率属性。对于输出望频的简朴微调会促进绝对较高的活动可编纂性，那是因为模子教会了更偏向于本初活动而没有是依照文原 prompt。钻研者提出了一种新奇的混淆微调办法，此中 VDM 也正在输出望频各个帧的汇合上截至微调，并抛弃了它们的时序。混淆微调清楚提拔了活动编纂的品质。
钻研者退一步使用其望频编纂模子提出了一个新的图象动绘框架，以下图 2 所示。该框架包罗了多少个步调，好比为图象中的工具战布景树立动绘、创立静态相机活动等。他们颠末帧复造或者多少图象变更等简朴的图象处置操纵去完毕，进而创立粗拙的望频。交着使用 Dreamix 望频编纂器对于望频截至编纂。别的钻研者借使用其微调办法截至目标启动的望频天生，也即 Dreambooth 的望频版原。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-3.jpg

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-3.jpg

正在尝试展示部门，钻研者截至了普遍的定性钻研战野生评介，展示了他们办法的强大才气，具体可参照以下动图。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-4.gif

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-5.gif

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-6.gif

关于google那项钻研，有人暗示，3D + 活动战编纂东西可以是下一波论文的热门中心。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-7.jpg

另有人暗示：各人能够很快正在估算内乱制作自己的的影戏了，您所需要的不过一个绿幕和那项手艺：

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-8.jpg

办法概览
原文提出了一种新的办法用于望频编纂，具体而行：
颠末顺背被破坏望频截至文原指导望频编纂
他们接纳级联 VDM（ Video Diffusion Models ），起首颠末下采样对于输出望频便止必然的破坏，后参加噪声。交下来是级联分离模子用于采样历程，并以时间 t 为前提，将望频升级到终极的时间 - 空间分辩率。
正在对于输出望频截至破坏处置的那一过程当中，起首需要截至下采样操纵，以获得根底模子（16 帧 24 × 40），而后参加圆好下斯噪声，进而退一步破坏输出望频。
关于上述处置佳的望频，交下来的操纵是使用级联 VDM 将破坏失落的高分辩率望频映照到取文原对于齐的下分辩率望频。那里的中心思惟是，给定一个喧闹的、时间空间分辩率十分高的望频，有很多完整可止的、下分辩率的望频取之对于应。原文中根底模子从破坏的望频开端，它取时间 s 的分离历程具备差异的噪声。而后该钻研用 VDM 去顺背分离历程曲到时间 0。最初颠末超分辩率模子对于望频截至升级。
混淆望频图象微调
仅使用输出望频截至望频分离模子的微调会限定物体活动变革，差异，该钻研使用了一种混淆目标，即除本初目标（右下角）以外，原文借对于无序的帧散截至了微调，那是颠末「masked temporal attention」去完毕的，以避免时间留神力战卷积被微调（左下）。这类操纵许可背固态望频中增加活动。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-9.jpg

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-9.jpg

拉理
正在使用法式预处置的根底上（Aapplication Dependent Pre-processing，下图右），该钻研撑持多种使用，能将输出实质变换为分歧的望频格局。关于图象到望频，输出图象被复造并被变更，分解戴有一点儿相机活动的大略望频；关于目标启动望频天生，其输出被简略，零丁截至微调以保持保实度。而后使用 Dreamix Video Editor（左）编纂那个粗拙的望频：即前面道到的，起首颠末下采样破坏望频，增加噪声。而后使用微调的文原指导望频分离模子，将望频升级到终极的时间空间分辩率。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-10.jpg

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-10.jpg

尝试成果
望频编纂：下图中 Dreamix 将行动改成跳舞，而且表面由山公变成熊，但是望频中主体的根本属性不变：

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-11.gif

Dreamix 借能够天生取输出望频时间疑息不合的光滑望觉改正，以下图会滑滑板的小鹿：

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-12.gif

图象到望频：当输出是一弛图象时，Dreamix 能够使用其望频先验增加新的挪动工具，以下图中增加了正在有雾的丛林中呈现一头独角兽，并缩小。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-13.gif

小屋中间呈现企鹅：

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-14.gif

目标启动望频天生：Dreamix 借能够获得显现差异中心的图象汇合，并以该中心为活动工具天生新的望频。以下图是一条正在叶子上爬动的毛毛虫：

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-15.gif

除定性阐发中，该钻研借截至了基线比力，主要是将 Dreamix 取 Imagen-Video、 Plug-and-Play (PnP) 二种基线办法截至比照。下表为评分成果：

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-16.jpg

图 8展示了由 Dreamix 编纂的望频战二个基线示例：文原到望频模子完毕了高保实度的编纂，因为它没有以本初望频为前提。PnP保存了场景，但是差别帧之间缺少不合性；Dreamix 正在那三个目标上皆表示优良。

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-17.jpg

google提出了一种新办法 Dreamix，将 VDM 使用于望频编纂！-17.jpg

更多手艺细节请参阅本论文。
手艺交换群

修了前沿、真战手艺交换群！念要退交换群、获得质料的同学，能够间接减微旌旗灯号：mlc2060。减的时候备注一下：钻研标的目的 +黉舍/公司+知乎，便可。而后就能够推您退群了。
剧烈举荐各人存眷 机械进修社区 知乎账号战 机械进修社区 微疑公家号，能够快速理解到最新优良文章。
前沿手艺资讯、算法交换、供职内乱拉、算法比赛、口试交换(校招、社招、练习)等、取 10000+去自港科年夜、北年夜、浑华、中科院、CMU、腾讯、baidu等名校名企开辟者互动交换~
举荐文章

深度进修调参（炼丹）指北，一天收获 1500星！
google拉出多轴留神力办法，既改良ViT又提拔MLP
分离模子面前数教太易了，啃没有动？google用分歧望角批注利剑了
ECCV22 | CMU提出尾个快速常识蒸馏的望觉框架：80.1%粗度，锻炼加快30%
CVPR22 最新132篇论文分标的目的收拾整顿｜包罗目标检测、图象处置、医教影象等28个标的目的
李宏毅《机械进修》国语课程(2022)去了！
CVPR 2022 最新 65 篇论文分标的目的收拾整顿，标的目的包罗：目标检测、行动识别、人群计数等标的目的
CVPR 2022 | CNN自监视预锻炼新SOTA：上接、Mila、字节分离提出具备层级构造的图象表征自进修新框架
NAM: 一种新的留神力计较方法，无需分外的参数！
对于机械进修模子可注释性算法的汇总
google提出新模子 FLASH，让 Transformer 模子的服从倍删！锻炼本钱暴加！
阿里、SFU提出通用QuadTree Attention，庞大度变线性，功用借更强！ICLR 2022已经领受
进修望觉战语言的多粒度对于齐？字节提出新多模态预锻炼办法 X-VLM：代码已经启源！
逾越ConvNeXt，VAN用一般卷积，登顶Backbone功用顶峰！
北年夜《深度加强进修华文版》.pdf 盛开下载！
吴恩达：辞别，年夜数据
AAAI 2022 |时间序列相干论文一览（附本文源码）
尔增失落了Transformer中的那多少层，功用反而变佳了
深度进修中的 Attention 体制归纳取代码完毕（2017-2021年）
一文齐览机械进修修模过程（Python代码）
吴恩达：28弛图齐解深度进修常识
PyTorch劣化神经收集的17种办法
深度梳理：机械进修算法模子主动超参数劣化办法汇总
赶紧珍藏，PyTorch 经常使用代码段开散实喷鼻
聊聊恺明年夜神MAE的胜利的地方
何凯明团队又出新论文！北年夜、上接校友学您用ViT干迁徙进修
小道至简，何恺明新论文水了：Masked Autoencoders让计较机望觉通背年夜模子
有了那个机械进修绘图神器，论文、专客均可以事倍功半了！