ai软件可以做gif动画 如何创作 AI 视频?给新手创作者的微指南

默认分类10个月前发布 admin
4,526 0
ChatGPT国内版

AI 生成视频发展太快了,你可能感到不知所措,不知从何入手。受中国 AIGC产业联盟()的邀请,00 尝试做一次比较系统的梳理。这篇文章写给即将开始 AI 视频创作的朋友,所以重点不是视频生成技术的研究,而是介绍 AI 生成视频的基本流程和比较成熟的工具。我会避开需要编程知识的原生工具,帮助大家解答几个问题:

如果你身边有想用 AI 创作视频的朋友,请分享这篇文章给 ta 吧!

预告文末福利:领取本文的 PDF 版本

有哪些 AI 生成视频的方法和工具?

视频的本质是什么?是一组连续的动态图像

在以前,获取动态的图像主要有两种方法:拍摄视频,或者制作 2D 或 3D 动画。在文生图技术大爆发之后,生成图片的质量不错而成本很低,静态图像开始取代部分实景拍摄,成为视频的基础素材。

图片是视频的基础,但这不是本文的重点,现在市面上已经有数不清的 AI 生成图像的工具:, ,DALL-E 3……。00 有,感兴趣的朋友可点击查看:

有了图片,就可以用剪映、After 、 Final Cut 等工具剪辑成视频。不过,直接用图片拼接成视频有一个问题:它太像 PPT 了,我们需要更连贯的动态素材。

于是问题变成:

如何让图像动起来?

研究试用了市面上五花八门的 AI 视频工具,00 把它们总结为三种方法:

方法原理技术实现典型工具

叙事图像逐段生成

将图片连起来

关键帧+补帧

Gen2, Pika, Video ,

视频转绘

把动态图像变换形态

风格迁移

Gen1, , ,

运动对象驱动

将运动对象转成视频

基于动态数据生成

, , Move.ai, ,

在第三部分我会详细介绍这些方法。

AI 生成视频目前能力如何?

AI 视频生成技术,依赖于生成视频的 AI 模型,目前主流依然是扩散模型,近期也出现了基于多模态的 。训练视频生成模型的难度很大,瓶颈包括:计算成本高,缺乏高质量的视频和指令数据集,融合自然语言处理+视觉处理+画面合成的技术难度大,等等。文生视频当前还处于起步阶段,随着文生图、图片对话技术的成熟,文生视频将成为多模态大模型下一步发展的重点。

AI 生成视频的难点在哪里?生成并不难,但是我们已经看过太多优质的影视内容,对 AI 视频的预期一开始就很高。可用的视频需具备一定的时长,优良的画面质量,一定的创意逻辑性及还原指令要求能力。接下来让我们看看目前主流的技术能做到什么程度。

生成时长

模型/产品最长生成时长平均生成所需时间(秒)

Gen-2

3+4 秒

60

Pika Labs

4+4 秒

40

Video

2~6 秒

跟硬件有关

10 秒

跟硬件有关

Zero Scope

3 秒

80

部分数据来自:国盛证券《2023年人工智能行业专题报告:AI文生视频,多模态应用的下一站》

目前,受限于训练资源,这些模型通常只能生成非常短的视频片段(大都为 3~4 秒)。不过,生成的时长会快速突破,创作者的重点还是在整合分段视频和加强叙事性上面。

镜头/运动控制运镜方法

和 Pika 提供了推拉摇移等基本的镜头运动控制,并且可以控制运动的幅度

ai软件可以做gif动画 如何创作 AI 视频?给新手创作者的微指南

Pika 运动幅度

上面已经看到 和 Pika 提供了运动幅度的调整。在 Video 中,也有一个可以简单控制运动变化幅度的参数 ,下面的视频展示了不同 的值如何影响画面变化:

姿态控制

复杂人物动作的视频生成,非常考验视频模型的帧连续效果及动作理解能力。很容易出现动作不连贯、身体器官重叠/变形/消失等问题。最近有大量的研究旨在解决姿态控制的问题,效果已经非常不错。比较有代表性的研究包括:

还有很多类似的研究,比如 、 等,目前还是在研究转化为成熟应用的阶段。比如最近刷屏的通义千问全民舞王,相信很快各大视频平台就会充斥群魔乱舞的小视频了。

语意理解

能否通过 准确体现创作者的意图,决定了文生视频的天花板。

pika

在近期的研究中, 推出的 体现了较强的语意理解能力,无需特定数据便可生成视频。只要为输入的图像增加文字描述,就可以添加动态效果。还可以修改提示来调整画面来达到预期的效果。

左:转身看镜头;右:打哈欠 (原图为 gif)

厉害的是, 一次能够生成 10 秒的视频,而且动作幅度较大,连贯性好,碾压 Gen-2 仅有小幅动作的视频生成。(哦, 是个多模态模型,它还能生成音频‍♀️)不过 还没有开放使用,大家还要再等一等。

连续性

现在 AI 生成视频的工具大多数一次只能生成 3~4 秒的视频,然后可以基于生成视频再延长 4 秒。这就对视频的连续性和一致性提出了要求。 在延长视频时,容易出现后续动作变化不自然且幅度小、脸部变形等情况,Pika 则更为连贯顺畅一些。

如果视频里面有多个人物或者主体,就更是考验 AI 视频模型处理复杂场景的能力及细微语言的理解能力,否则画面很容易变成一锅粥。

局部修改/视频编辑

很早就提供了视频智能编辑的系列功能,包括移除背景、抠图、运动跟踪等等。

最近 不断更新局部修改的功能 Brush,能够结合镜头运动和文字 来控制画面:

Pika 也提供了局部修改和修改视频尺寸的功能,非常智能:

如果想创作 AI 视频,从哪里开始?

在开始之前,不妨问自己一个问题:

我有没有明确要表达的主旨/议题/观点?

如果没有,就把自己当成一个艺术家,尝试 AI 这种最新的“艺术材料”能做什么。

如果有,那么你可以更有意识地构思整个创作流程。下一个问题可以问自己:

这个视频的目标是什么?是对哪一个人群做到 A.营造氛围,B.传递信息,C.影响说服,D.…?

目前 AI 生成视频还在早期阶段,生成的内容比较随机、难以控制,但是能够快速地构建一个风格化的场景,尤其是现实中不存在的场景,这会更加考验创作者“讲故事”的能力。

在目标相对清晰以后,我们可以进入动手创作的阶段。这时候的关键问题是:

视频的内容形态是什么?——讲故事?动态影像?人物口播?运动捕捉?……

00 整理出几种 AI 生成视频的方式,下面详细讲解一下这几种方式的大致创作思路。

方法原理技术实现典型工具

叙事图像逐段生成

将图片连起来

关键帧+补帧

Gen2, Pika, Video ,

视频转绘

把动态图像变换形态

风格迁移

Gen1, , ,

ai软件可以做gif动画 如何创作 AI 视频?给新手创作者的微指南

运动对象驱动

将运动对象转成视频

基于动态数据生成

, , Move.ai, ,

一、叙事图像逐段生成

叙事性生成,其实就是“讲好一个故事”。皮克斯每一部动画都深入人心,除了人物形象立体丰富、制作精良、技术出众,更为关键的是它把大量精力投入到了“讲好故事”上面,才有了一个又一个老少皆宜、经久不衰的经典。

1.确定角色、场景、叙事线索,即故事脚本

想要讲好一个故事,不能一上来就开始用 AI 出图,而是构思整个故事。故事脚本这个环节,不是 AI 视频技术的范围,但我们依然可以借助 AI 的能力。比如 00 在创作《》的时候,用到了视频脚本 GPTs Video ,帮助我快速生成一个关于火星城市的宣传短片的脚本。

2.整理分镜,生成各镜头的画面

有了满意的脚本以后,接下来要把抽象的概念转换成具体的图像画面,然后给到 AI 生成图像和视频。在传统的影视动画制作中,这一步往往需要制作“故事板”,也就是艺术家把一个一个镜头里面的场景和人物用草稿描绘出来,再不断修改优化,最后拍摄出来。

我们可能没有制作经验和绘制草图的技术,这时候还是请 AI 来帮忙。大家可以搜索并找一些描述画面提示词的工具,比如词图 AI 的组词工具,或者文生图提示词的 GPTs,让 AI 把故事脚本中的场景描述成具体的图像 。

有了画面描述以后,就可以开始用文生图工具,比如 , 等生成每一个场景的静态图像了。当然, 和 Pika 等视频工具也提供了文生图的功能,可以直接在里面生成,不过它们并不是很擅长图像生成,如果想获得更好、更可控的图像,还是推荐用专门的文生图工具。这些是我用 生成的部分视频关键帧。

3.生成视频片段,组织画面

有了关键帧画面以后,要让它们“动起来”。这回终于轮到 AI 视频工具上场了。

在 、Pika 等工具中,重点是把图片变成“镜头”。最常用的让图片动起来的方法有两种:

这里需要提醒一下费用问题。 生成 1 秒视频需要 5 个 ,每个月有 125 个免费 ,只能生成 25 秒,用完需要充值,$12/月 可以生成 125 秒的视频。Pika 10 个 可以生成 3 秒视频,每天有 30 个免费 ,充值 $8/月 可以生成 210 秒的视频。

有了每一个场景的视频片段,接下来要完成叙事的部分。我们需要用剪辑工具(剪映/必剪/After //)把这些只有几秒的片段衔接起来。如果之前的脚本写得好,并且场景画面的风格、人物比较一致,在衔接的时候就轻松很多。这个环节主要处理情节连贯性、主体一致性等问题,让画面节奏更加流畅。

二、视频转绘

第二种生成视频的方式要轻松不少,因为视频是现成的,省去了我们构思故事、脚本、场景、画面的工作,核心是把原有视频转绘成另外一种风格。能完成转绘的工具就更多了,这里主要介绍 2 个。

Gen-1

上面我们已经了解过 的 Gen-2,它提供了强大的文生视频的能力。而 Gen-1 是更早推出的功能,它主攻的就是风格转绘。

凭借出色的画面稳定性赢得了大批用户,尤其在动漫风格上面表现突出。不过目前还只有 渠道可以使用。

三、运动对象生成

这一类视频的重点不是”讲故事“,而是人或运动物体的“表演”。

数字人/人脸驱动

“数字人”的概念我们并不陌生,这类视频的主体非常明确:一个人物形象,可以是真人录制,也可以是建模出来的完全虚拟形象。让人物或虚拟形象说话,就完成了 AI 视频的制作,目前这种技术已经广泛用在直播间、智能客服、数字员工等领域。

去年 10 月,美国著名歌手 Swift 在一个节目中受访的片段引起热议。视频中莓莓用流利的中文回答问题,无论是发音还是口型都非常标准。视频一发布就爆火,后来大家才知道这是用 完成的。

是一个功能全面、效果很好的 AI 虚拟人应用,以 AI 虚拟人形象和声音克隆两大技术作为基础,支持一键换衣、虚拟主播、文本转声音等各种操作。类似的工具还有 D-ID、 等,都能快速将人物图片转成会说话的视频,口播类的场景非常适合。

运动驱动

只是让人动嘴讲话,还是不能满足我们在更多场景的需求。能不能让人整个动起来呢?能不能让动物、机器人之类的其他物体动起来呢?

当然可以,这就是另外一类 AI 可以生成的视频——基于运动对象来生成,并且可以做到实时生成。这背后是已经发展多年的运动捕捉技术。在 AI 的加持下,运动捕捉已经已经达到非常高的精度,并且解决了文生视频难以处理的画面抖动、主体不一致的问题。这是 00 最看好的能在影视动画广泛商用的技术。

和 Move.ai 都是这个领域不错的工具,但是使用时最好配合 3D 建模软件来调整角色,有一定的使用门槛。

后期(画面/配音/字幕)

前面我们总结了各种 AI 生成动态视频的方法。如果顺利,你会得到很多动态的视频素材,接下来是最后一个环节:后期制作。

一个完整的视频,并不是只有动态的画面,它还需要调节画面的质量、颜色,需要加入让人更加有代入感的背景音乐、音效和旁白,以及方便观看和理解的字幕等等。

这其中也涉及到非常多传统影视制作的工序,未来也会涌现很多 AI 驱动的工具,有机会再跟大家逐一分享。

小结

这一期的内容还真不少,相信你看完以后,对如何用 AI 生成视频已经有更加全局和深入的了解:

相信你已经跃跃欲试,想把脑海中的想法变成精彩的画面了。如果你身边有想用 AI 创作视频的朋友,也请分享这篇文章给 ta 吧!

AI 时代,工具极大赋能创作者,每个人都有机会更好地展现自己的创意。AI 生成视频的大门正在向你我开启,期待见到你的作品!

福利

微信文章点击链接不方便,00 制作了指南的 PDF 版本,可以下载保存,内含 AI 视频工具链接,可直达访问。

领取方式:关注 公众号「设计极客 00」,后台回复“视频指南”,即可获得下载链接。

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...