2022 年可说是 AI 技术发展蓬勃的一年影响了许多不同领域,连艺术领域也不例外,自 AI 生成绘图工具推出后便掀起一波浪潮。日前,一群 AI 开发人员推出了一款新工具 ,可以输入图片或视频,接着通过文字指示,即可生成或编辑影片,可说是十分方便。一起来看看这项超强研究吧!
可支持上传图片或影片,生成新的视频
为了提高动态的可编辑性,研究团队设计了一种混合目标,运用于遮蔽原先影片的目标物,以符合文字提示的内容,并同时对影片进行微调。另外,团队还引入了新的图像动画架构,透过简单的图像处理,将图像转换为粗略的视频,接着再透过影片编辑器进行动画处理。而此工具可用来执行三种不同的模式,产生新的视频。
1. 视频编辑(Video )
例如,在下面的视频中, 将吃东西的猴子(左)变成了跳舞的熊(右),给出了提示“一只熊随着欢快的音乐跳舞和跳跃,移动了他的整个身体。
2. 图像生成视频(Image-to-Video)
也可输入图像与文字,建立一支新的视频。从下方影片为例,它能够为静态图像注入复杂的动态。从原先一幅简单的山水风景画,输入「鸟在天空上飞,镜头缩放后,拍到一支水牛在河中洗澡」等文字,就生成了符合文字描述的视频。
3. 系列图像生成视频( Video )
另外, 也可给定几张显示同一主题的图像,提取视觉特征,再为其製作动画。以下方影片为例,输入几张玩具熊的照片,输入「熊走路」等文字,即可输出所要的影像。
视频扩散模型的工作原理
根据谷歌的说法,仅在输入视频上微调 的视频扩散模型就限制了运动变化的程度。相反,我们使用混合目标,除了原始目标(左下角)之外,还对无序帧集进行微调。这是通过使用“ ”来完成的,防止时间注意力和卷积被微调(右下)。这允许向静态视频添加运动。
“我们的方法通过依赖于应用程序的预处理(左)支持多种应用程序,将输入内容转换为统一的视频格式。对于图像到视频,输入图像被复制并使用透视变换进行变换,合成带有一些相机运动的粗略视频。对于主题驱动的视频生成,输入被省略——微调单独处理保真度。然后使用我们的通用“ 视频编辑器”(右)编辑这个粗糙的视频:我们首先通过下采样破坏视频,然后添加噪点。然后,我们应用经过微调的文本引导视频扩散模型,该模型将视频升级到最终的时空分辨率,”Dream 在上写道。
您对 感觉如何?
希望看到技术如何发展?