全文4786字,预计阅读时间15分钟,文末留言就有机会获得“腾讯蓝电脑包”
近几个月,AI绘画在算力与模型的加持下愈发展现出惊人的视觉效果,Dall-E2、 、等工具均能根据使用者输入的词语提示生成细节丰富的图片。GPT3(一种自回归语言模型,用来生成类似人类的文本)、加上扩散模型(一类无需监督训练的生成模型)在高清图片处理上的优势,使得这些高清图片的生成速度大大提高。
视频的画质、流畅程度由组成其的图片画质与帧率决定,随着高质量图片的快速生成, Text-to-Video(根据文本生成视频片段)的技术也自然被解锁。机器深度学习、强化学习都需要强大的数据库与算力作支持。因此,AI是需要科技大厂们大施拳脚、深入研究的领域。近日,Meta与谷歌就自然语言生成视频的功能发布了新工具与相关研究论文。
Dall-E2根据特定文本生成不同的图片变种
本文将分为以下几部分:
一、一周内公布的三个Text-to-Video工具
二、目前用户们对Text-to-Video工具的看法
三、扩散的边界是?
一、一周内公布的三个Text-to-Video工具
Make-A-Video:从“茹毛饮血“到”刀耕火种”——改变生成视频的数据原料
2022年9月29日,Meta AI公布了一款基于文本生成视频短片的系统“Make-A-Video”。其主要功能包括:
•依据提示词生成几秒连贯的视频,并且有“超现实的”、“现实的”、“风格化”的视频变种供调整;
A dog a cape the sky
•从一张图片或两张有一定关联的图片生成5秒左右的动态图;
•根据一小段视频片段派生不同风格、拍摄角度、相似动作的视频变种。
在随之公布的论文中,Meta提到该技术结合了之前的生成工具Make-A-Scene(Meta之前提出的一项文本生成图像技术)的建模方法,无需使用文本-视频数据集,让视频训练数据能够从图像与生成图像数据和中获得。
若是把视频比作食物,那么它的生产从原先需要大量原始视频与文字标签做训练的“茹毛饮血”,变成了能够利用现有文字生成图像当数据库的“刀耕火种”。
相比于训练文字直接生成视频(图中蓝色流程),文字-图片-视频(绿色流程)的训练方式拥有更加丰富的数据来源
该论文介绍了传统Text-to-Image(根据文字生成图片,简称T2I)生成过程和历史,强调了扩散模型不同于GAN与VAE(两类已经发展很久的生成模型)对T2I模型的贡献;图像合成高分辨率与帧率视频的创新流程——利用时空解码器、插帧、超分辨率让多组生成图片合成的视频更加高清和流畅。
从流程上,通俗地解释,该技术就是和大家早已耳闻的AI作画一样,根据文字通过扩散模型生成单张图(同时在时间维度用U-Net卷积网络切割标记),而后卷积等方法生成很多张图(可以作为视频的关键帧),然后在插值补帧,最后将画质变高清。其妙在不需要互联网上的视频素材库,完全依赖NLP(自然语言处理,即让机器理解人们说的话)与CV(计算机视觉,即让机器看懂人们看的图)领域丰富的“文字-图片”的数据即可完成训练。
论文展示text-to-video的主要流程
从训练结果上看,视频生成效果超过了今年5月29日清华&智源研究院出品。但由于其训练数据库来自文字和静态图片,它无法学习与训练“描述动作”的视频片段(如“宇航员将手从左往右挥舞”这种纯描述动作的关键词)。
结果主观对比
:从“制砖块“到”砌砖墙“——利用因果模型突破视频长度限制
2022年9月30日,提出了,其能通过一连串文字生成任意时长视频。谷歌在项目官网上展示的功能主要包括:
•根据四句话或更多生成长达20秒的视频(如“一名宇航员的侧视图正在穿过火星上的水坑;宇航员在火星上跳舞;宇航员在火星上遛狗;宇航员和他的狗看烟花”右三);
•不同组的提示词(风格、动作、场景)排列组合生成多个视频变种;
•一张图+文字提示创作小动图。
该项目不同于前面介绍的技术,它能让生成视频的连贯性和多样性得到了充分实现——将不同语句生成的多个单视频片段连接了起来,因此视频的时间长度几乎是没有限制的。在其发布的论文中,他们解释了实现该技术“无限”时长又能保证效率的模型框架——C-ViViT(ViViT是计算机视觉国际会议上提出的视频处理方法)编码器。简单来说,用户给多少(词语提示)就能有多少token(视频中的关键帧)、就可以生成多少一小段视频,所以越多视频就能越长。
核心架构
该技术就好比让视频在时间维度上的“图片放大缩小”成为可能——图片放大之后,(如64×64变成)如果不在像素中间插值,图片就会出现一块一块黑的丢失像素,而谷歌的编码器允许视频在格式上时间维度的“放缩”,模型也会通过解码器“补帧”生成连贯的视频。
2D图片经过翘曲后若不进行插值处理,会丢失像素(图中黑色区块)
模型的训练数据来自“大量的文本转图像”与“少量的文本转视频”数据集,并没有如Meta所做的那样完全摆脱对“文本转视频数据”的依赖。
两三秒的动态图远不能被称作视频,视频要做到像电影那样讲述一个故事,需要生成器满足讲述者对“任意时长“的需求。从原理上让创作者们能在任意时间点对视频片段进行编辑,从制作砖块(小gif)迈向了砌转墙(长视频、电影、番剧)。而从结果上看,该项目生成视频的连贯性和时长都很令人满意,有潜力让AI“讲述故事”,但极力压缩token数目的后果就是视频片段的质量过低,因此在画面稳定性和画质方向上都很有提升空间。
从原理上让AI能够像剪辑软件一样“拼接视频”
Video:从“门锁录制”到“帧”——七个扩散模型级联生成高清片段
生成的视频实在太糊
2022年10月6日上公布的 Video训练模型着重展示了生成视频的高画质,弥补了先前介绍的项目在画质上的诟病。该技术的主要功能有:
•根据文字生成高清流畅的视频;
用此模型生成的相对高清小熊洗碗视频片段
•视频能够具有不同的艺术风格;
艺术风格化视频
•具有对3D结构的卓越理解能力,在旋转时保留物体大致结构;
3D结构的学习与保留
•能够生成动画式文本,即文字动画特效。
文字动画特效
相比于Meta已经发表的论文来说,谷歌的论文说明更细致和详尽,相当于在上文Mate论文流程图中的扩散步骤大下功夫。
视频与图片的区别在于,视频多了时间维度和三维空间维度(无论是(图像内部修复,比如,让蒙娜丽莎笑起来)还是(图像补全,比如,画出蒙娜丽莎周围的环境)改动都需要解析画面的三维结构),因此 Video就将这两个维度分类集合成数目较少的几类大“扩散核”(也就是下图管线中的SSR与TSR),以便于更好地渐进蒸馏(舍去不必要的扩散和改变过程)。因此,高质量视频的生成效率通过这七个扩散模型组成的管线被提高。
Video的核心级联
可见,在生成流畅长视频已经带来不错成果的情况下,谷歌也仍不放弃扩散模型对数据处理生成的作用,倘若这两款模型能够得到较好结合,能够为影视CG行业提供极大的助力。
三个小工具的技术总结
扩散模型最早于2015年基于能量消减和转换提出,那时的数学证明(基于马尔科夫链生成高斯分布的噪点,贝叶斯逆过程求解等)已经得到完善,但是在应用层面囿于当时的算力与论题假设、加上当年GAN(生成对抗网络)的火爆,并没有得到广泛重视。2020年DDPM论文(去噪扩散概率模型)中指出了扩散模型在生成高清画质图片的优越性,Open AI(开发出DALL·E系列的人工智能公司)的突破性进展重燃了人们对扩散模型的研究热情,CV领域的AI作为制图工具迅速发展起来。动画、视频同样能够带来视觉上的反馈,AI通过视频讲故事的发展是一个水到渠成的结果。
从上述科技大厂发布的这三个文字生成视频AI工具来看,如果把文字生成视频领域比作建房屋,研究分别规划出了房屋的架构、如何搭高以及如何建精美:
房屋材料架构(左)、建高与建精美(右)
Meta的Make-A-Video开拓了视频生成模型中训练数据库内容的新路径,属于思路提出、流程总结向的成果,将基于扩散模型生成的T2I从时空维度、运用卷积、注意力层等迭代方式向T2V拓展。
谷歌的提出了因果模型C-ViViT来助力模型在时间维度上对视频数据的理解,然后通过提示词将离散的片段视频编码好,最后通过因果将片段顺着提示词顺序串联起来。
而谷歌的 Video是系列下的又一基于扩散模型工具,完全基于先前生成图片所用的语言模型(T5-XXL),然后不断通过自回归的方式在时间-帧率(TSR)和空间-清晰度(SSR)维度扩散,得到高清的视频片段。
二、目前用户们对Text-to-Video工具的看法
——主要分为两类:
消极:
1.AI改变了人们的创作方式,不属于真的艺术。
许多人觉得AI创作出来的作品有说不出来的怪异,并且通过“工具”训练出来的作品不是传统的艺术,没有美术基础、创意想法的作品不应该被重视。
2.输入提示词就能套用其他创作者的素材,这是剽窃与抄袭。
画手、艺术家被当作AI训练集,许多版权保护在解码下名存实亡(就算有水印,AI也可以轻易除去),人工智能的抄袭问题有待规范化。
3.继画师被抢饭碗之后,短视频创作者也工作不保?
相关行业者担心会被技术取代:的火爆让部分二次元创作者担心、让被AI“训练学习”的艺术家们气愤,而AI生成视频技术也让部分靠短视频创作生活的人焦虑。
积极:
1.释放了重复性的工作,让从业者专注于创造性的想法。
技术进步终究是为了提高人们的工作效率,大家认为AI做视频技术的发展进一步省去了创作者们繁琐的工作,同时也督促创艺术家们往创意、想象力方向创作。
2.带来更高效率的工作方式与更高质量的影视作品。
有人期待新技术与各个领域的结合,期望看见“相机毁了一代画家,但催生了摄影师新职业、电影行业”的局面。他们希望能有更多资本“卷”起来,将AI创作领域公开化、成熟化、合法化,从而提高产业工作效率、带来更高质量的作品。
三、扩散的边界是?
1.视频之后或许是视频后的行为模型
除了文本-视频的创作模式之外,视频还能通过建模-绑骨-画面渲染的方式来实现。对于行业者来说,能够利用数据集可以是行为(骨骼动画)-视频。
Text-to-Video工具化之后可能会像图片处理器一样,将行为模组集成化,变成一个个可编辑的提示词或按键。例如,Adobe的(骨骼动画资源网页)网站若能被AI生成行为扩充,将极大地助力独立游戏开发者与视频创作者。
AI生成的视频还可以作为数据库被用于其他领域。正如text-image数据被用于训练视频的生成,视频数据也是其他领域(如行人检测、个性化服务)的重要数据来源。加上特定标签的视频数据可以作为简单的实验样本、以视频为素材的游戏场景创作也可以将生成视频数据纳入训练库。
若能被AI扩充那样骨骼识别-肌肉移动-动画视频的创作方式若能实现,将会极大辅助影视和游戏等行业的工作流。(以色列Tel Aviv 在10月6日开源的MDM:Human Model项目就通过AI识别人的骨骼行为模型)
MDM:Human Model项目通过AI识别人的骨骼行为模型
2.AI作图技术下创作者的分层与创作方式的转型
AI将极大推动人们的创作效率,它省去了创作者们检索信息、获取灵感的过程,让人们能够更加投入在创造力与想象力上。行业优秀者可以选择打破AI绘图的框架、或顺应AI的工具化将自己打造成一个有特色的标签;行业新人将更有机会通过标新立异的方式跳过繁重的练习出众,行业的个体差距会被逐步拉大。假如AI的艺术不再那么“艺术”,那么真正艺术只会更加“艺术”。
随着新技术的发展,大家对创作者“价值”的新定义呼声越来越高。有人提出了按“被学习次数”赚得收益的新创作模式——当使用者将某位艺术家风格作为提示词的时候,应该按使用次数与用途进行付费。而乐于为数据库添砖加瓦的艺术家们也可以让自己的作品与关键词更加契合,或打磨画风,让自己能够更多地“被引用”。这或许将成为未来视觉创作方向新的甲方乙方的关系。
游戏开发SDK若能直接与数据库对接,将节约独立游戏开发者的AI训练成本、提高工作效率。例如,(反向动力学,可以根据骨骼末端模拟上层节点,比如“人物走路时膝盖会跟着自然前进”)、Unity的 骨骼绑定(任何人形的模型都可以被游戏引擎自动绑骨,以便输入动画)、决策树行为树(一系列无法被玩家操控的可活动物体,比如敌人的行动)等最原始的“AI”工具都是开发者的福音;近日Meta 大会上,ETH 与Meta实验室联手打造的基于深度学习实现通过稀疏传感器实现全身动捕,将帮助VR游戏进行更多可能性的开发。
9月23日Meta公布通过头显和手柄控制器的位置和方向数据作为输入预测玩家下半身移动(此前众多VR游戏用的都是预输入骨骼动画的形式,极少用动捕,包括)
参考资料
向上滑动阅览↓
[1]MAKE-A-VIDEO项目地址:
[2]MAKE-A-VIDEO论文地址:
[3]论文地址:
[4]论文地址:
[5]项目说明网站:
[6] Video论文pdf:
[7] Video项目说明网站:
[8]2015年基于能量扩散模型的数学基理最初提出和证明 :
[9]2020年DDPM被提出应用于高维度的深度学习:
[10]Adobe的免费骨骼动画库:
[11]MDM:Human Model项目说明:
[12]《从第一性原理出发,分析AI会如何改变视觉内容的创作和分发》: