AI 生成视频发展太快了,你可能感到不知所措,不知从何入手。受中国 AIGC产业联盟()的邀请,00 尝试做一次比较系统的梳理。这篇文章写给即将开始 AI 视频创作的朋友,所以重点不是视频生成技术的研究,而是介绍 AI 生成视频的基本流程和比较成熟的工具。我会避开需要编程知识的原生工具,帮助大家解答几个问题:
如果你身边有想用 AI 创作视频的朋友,请分享这篇文章给 ta 吧!
预告文末福利:领取本文的 PDF 版本
有哪些 AI 生成视频的方法和工具?
视频的本质是什么?是一组连续的动态图像。
在以前,获取动态的图像主要有两种方法:拍摄视频,或者制作 2D 或 3D 动画。在文生图技术大爆发之后,生成图片的质量不错而成本很低,静态图像开始取代部分实景拍摄,成为视频的基础素材。
图片是视频的基础,但这不是本文的重点,现在市面上已经有数不清的 AI 生成图像的工具:, ,DALL-E 3……。00 有,感兴趣的朋友可点击查看:
有了图片,就可以用剪映、After 、 Final Cut 等工具剪辑成视频。不过,直接用图片拼接成视频有一个问题:它太像 PPT 了,我们需要更连贯的动态素材。
于是问题变成:
如何让图像动起来?
研究试用了市面上五花八门的 AI 视频工具,00 把它们总结为三种方法:
方法原理技术实现典型工具
叙事图像逐段生成
将图片连起来
关键帧+补帧
Gen2, Pika, Video ,
视频转绘
把动态图像变换形态
风格迁移
Gen1, , ,
运动对象驱动
将运动对象转成视频
基于动态数据生成
, , Move.ai, ,
在第三部分我会详细介绍这些方法。
AI 生成视频目前能力如何?
AI 视频生成技术,依赖于生成视频的 AI 模型,目前主流依然是扩散模型,近期也出现了基于多模态的 。训练视频生成模型的难度很大,瓶颈包括:计算成本高,缺乏高质量的视频和指令数据集,融合自然语言处理+视觉处理+画面合成的技术难度大,等等。文生视频当前还处于起步阶段,随着文生图、图片对话技术的成熟,文生视频将成为多模态大模型下一步发展的重点。
AI 生成视频的难点在哪里?生成并不难,但是我们已经看过太多优质的影视内容,对 AI 视频的预期一开始就很高。可用的视频需具备一定的时长,优良的画面质量,一定的创意逻辑性及还原指令要求能力。接下来让我们看看目前主流的技术能做到什么程度。
生成时长
模型/产品最长生成时长平均生成所需时间(秒)
Gen-2
3+4 秒
60
Pika Labs
4+4 秒
40
Video
2~6 秒
跟硬件有关
10 秒
跟硬件有关
Zero Scope
3 秒
80
部分数据来自:国盛证券《2023年人工智能行业专题报告:AI文生视频,多模态应用的下一站》
目前,受限于训练资源,这些模型通常只能生成非常短的视频片段(大都为 3~4 秒)。不过,生成的时长会快速突破,创作者的重点还是在整合分段视频和加强叙事性上面。
镜头/运动控制运镜方法
和 Pika 提供了推拉摇移等基本的镜头运动控制,并且可以控制运动的幅度。
Pika 运动幅度
上面已经看到 和 Pika 提供了运动幅度的调整。在 Video 中,也有一个可以简单控制运动变化幅度的参数 ,下面的视频展示了不同 的值如何影响画面变化:
姿态控制
复杂人物动作的视频生成,非常考验视频模型的帧连续效果及动作理解能力。很容易出现动作不连贯、身体器官重叠/变形/消失等问题。最近有大量的研究旨在解决姿态控制的问题,效果已经非常不错。比较有代表性的研究包括:
还有很多类似的研究,比如 、 等,目前还是在研究转化为成熟应用的阶段。比如最近刷屏的通义千问全民舞王,相信很快各大视频平台就会充斥群魔乱舞的小视频了。
语意理解
能否通过 准确体现创作者的意图,决定了文生视频的天花板。
pika
在近期的研究中, 推出的 体现了较强的语意理解能力,无需特定数据便可生成视频。只要为输入的图像增加文字描述,就可以添加动态效果。还可以修改提示来调整画面来达到预期的效果。
左:转身看镜头;右:打哈欠 (原图为 gif)
厉害的是, 一次能够生成 10 秒的视频,而且动作幅度较大,连贯性好,碾压 Gen-2 仅有小幅动作的视频生成。(哦, 是个多模态模型,它还能生成音频♀️)不过 还没有开放使用,大家还要再等一等。
连续性
现在 AI 生成视频的工具大多数一次只能生成 3~4 秒的视频,然后可以基于生成视频再延长 4 秒。这就对视频的连续性和一致性提出了要求。 在延长视频时,容易出现后续动作变化不自然且幅度小、脸部变形等情况,Pika 则更为连贯顺畅一些。
如果视频里面有多个人物或者主体,就更是考验 AI 视频模型处理复杂场景的能力及细微语言的理解能力,否则画面很容易变成一锅粥。
局部修改/视频编辑
很早就提供了视频智能编辑的系列功能,包括移除背景、抠图、运动跟踪等等。
最近 不断更新局部修改的功能 Brush,能够结合镜头运动和文字 来控制画面:
Pika 也提供了局部修改和修改视频尺寸的功能,非常智能:
如果想创作 AI 视频,从哪里开始?
在开始之前,不妨问自己一个问题:
我有没有明确要表达的主旨/议题/观点?
如果没有,就把自己当成一个艺术家,尝试 AI 这种最新的“艺术材料”能做什么。
如果有,那么你可以更有意识地构思整个创作流程。下一个问题可以问自己:
这个视频的目标是什么?是对哪一个人群做到 A.营造氛围,B.传递信息,C.影响说服,D.…?
目前 AI 生成视频还在早期阶段,生成的内容比较随机、难以控制,但是能够快速地构建一个风格化的场景,尤其是现实中不存在的场景,这会更加考验创作者“讲故事”的能力。
在目标相对清晰以后,我们可以进入动手创作的阶段。这时候的关键问题是:
视频的内容形态是什么?——讲故事?动态影像?人物口播?运动捕捉?……
00 整理出几种 AI 生成视频的方式,下面详细讲解一下这几种方式的大致创作思路。
方法原理技术实现典型工具
叙事图像逐段生成
将图片连起来
关键帧+补帧
Gen2, Pika, Video ,
视频转绘
把动态图像变换形态
风格迁移
Gen1, , ,
运动对象驱动
将运动对象转成视频
基于动态数据生成
, , Move.ai, ,
一、叙事图像逐段生成
叙事性生成,其实就是“讲好一个故事”。皮克斯每一部动画都深入人心,除了人物形象立体丰富、制作精良、技术出众,更为关键的是它把大量精力投入到了“讲好故事”上面,才有了一个又一个老少皆宜、经久不衰的经典。
1.确定角色、场景、叙事线索,即故事脚本
想要讲好一个故事,不能一上来就开始用 AI 出图,而是构思整个故事。故事脚本这个环节,不是 AI 视频技术的范围,但我们依然可以借助 AI 的能力。比如 00 在创作《》的时候,用到了视频脚本 GPTs Video ,帮助我快速生成一个关于火星城市的宣传短片的脚本。
2.整理分镜,生成各镜头的画面
有了满意的脚本以后,接下来要把抽象的概念转换成具体的图像画面,然后给到 AI 生成图像和视频。在传统的影视动画制作中,这一步往往需要制作“故事板”,也就是艺术家把一个一个镜头里面的场景和人物用草稿描绘出来,再不断修改优化,最后拍摄出来。
我们可能没有制作经验和绘制草图的技术,这时候还是请 AI 来帮忙。大家可以搜索并找一些描述画面提示词的工具,比如词图 AI 的组词工具,或者文生图提示词的 GPTs,让 AI 把故事脚本中的场景描述成具体的图像 。
有了画面描述以后,就可以开始用文生图工具,比如 , 等生成每一个场景的静态图像了。当然, 和 Pika 等视频工具也提供了文生图的功能,可以直接在里面生成,不过它们并不是很擅长图像生成,如果想获得更好、更可控的图像,还是推荐用专门的文生图工具。这些是我用 生成的部分视频关键帧。
3.生成视频片段,组织画面
有了关键帧画面以后,要让它们“动起来”。这回终于轮到 AI 视频工具上场了。
在 、Pika 等工具中,重点是把图片变成“镜头”。最常用的让图片动起来的方法有两种:
这里需要提醒一下费用问题。 生成 1 秒视频需要 5 个 ,每个月有 125 个免费 ,只能生成 25 秒,用完需要充值,$12/月 可以生成 125 秒的视频。Pika 10 个 可以生成 3 秒视频,每天有 30 个免费 ,充值 $8/月 可以生成 210 秒的视频。
有了每一个场景的视频片段,接下来要完成叙事的部分。我们需要用剪辑工具(剪映/必剪/After //)把这些只有几秒的片段衔接起来。如果之前的脚本写得好,并且场景画面的风格、人物比较一致,在衔接的时候就轻松很多。这个环节主要处理情节连贯性、主体一致性等问题,让画面节奏更加流畅。
二、视频转绘
第二种生成视频的方式要轻松不少,因为视频是现成的,省去了我们构思故事、脚本、场景、画面的工作,核心是把原有视频转绘成另外一种风格。能完成转绘的工具就更多了,这里主要介绍 2 个。
Gen-1
上面我们已经了解过 的 Gen-2,它提供了强大的文生视频的能力。而 Gen-1 是更早推出的功能,它主攻的就是风格转绘。
凭借出色的画面稳定性赢得了大批用户,尤其在动漫风格上面表现突出。不过目前还只有 渠道可以使用。
三、运动对象生成
这一类视频的重点不是”讲故事“,而是人或运动物体的“表演”。
数字人/人脸驱动
“数字人”的概念我们并不陌生,这类视频的主体非常明确:一个人物形象,可以是真人录制,也可以是建模出来的完全虚拟形象。让人物或虚拟形象说话,就完成了 AI 视频的制作,目前这种技术已经广泛用在直播间、智能客服、数字员工等领域。
去年 10 月,美国著名歌手 Swift 在一个节目中受访的片段引起热议。视频中莓莓用流利的中文回答问题,无论是发音还是口型都非常标准。视频一发布就爆火,后来大家才知道这是用 完成的。
是一个功能全面、效果很好的 AI 虚拟人应用,以 AI 虚拟人形象和声音克隆两大技术作为基础,支持一键换衣、虚拟主播、文本转声音等各种操作。类似的工具还有 D-ID、 等,都能快速将人物图片转成会说话的视频,口播类的场景非常适合。
运动驱动
只是让人动嘴讲话,还是不能满足我们在更多场景的需求。能不能让人整个动起来呢?能不能让动物、机器人之类的其他物体动起来呢?
当然可以,这就是另外一类 AI 可以生成的视频——基于运动对象来生成,并且可以做到实时生成。这背后是已经发展多年的运动捕捉技术。在 AI 的加持下,运动捕捉已经已经达到非常高的精度,并且解决了文生视频难以处理的画面抖动、主体不一致的问题。这是 00 最看好的能在影视动画广泛商用的技术。
和 Move.ai 都是这个领域不错的工具,但是使用时最好配合 3D 建模软件来调整角色,有一定的使用门槛。
后期(画面/配音/字幕)
前面我们总结了各种 AI 生成动态视频的方法。如果顺利,你会得到很多动态的视频素材,接下来是最后一个环节:后期制作。
一个完整的视频,并不是只有动态的画面,它还需要调节画面的质量、颜色,需要加入让人更加有代入感的背景音乐、音效和旁白,以及方便观看和理解的字幕等等。
这其中也涉及到非常多传统影视制作的工序,未来也会涌现很多 AI 驱动的工具,有机会再跟大家逐一分享。
小结
这一期的内容还真不少,相信你看完以后,对如何用 AI 生成视频已经有更加全局和深入的了解:
相信你已经跃跃欲试,想把脑海中的想法变成精彩的画面了。如果你身边有想用 AI 创作视频的朋友,也请分享这篇文章给 ta 吧!
AI 时代,工具极大赋能创作者,每个人都有机会更好地展现自己的创意。AI 生成视频的大门正在向你我开启,期待见到你的作品!
福利
微信文章点击链接不方便,00 制作了指南的 PDF 版本,可以下载保存,内含 AI 视频工具链接,可直达访问。
领取方式:关注 公众号「设计极客 00」,后台回复“视频指南”,即可获得下载链接。