关键在于如何使用。
整理/灰信鸽
关于AI的争吵一直没停过,从最早的美术,波及到文案、运营等各个岗位。但在许多人还在忙着争吵时,不少游戏公司已经着手研究了AI许久,甚至已经拿出了许多实验成果。
最近,趣加的一位总监级大佬,就在内部分享了他对AI技术的探索。
重研发的趣加,本也布局了AI领域许久。其CTO伍涛曾提到公司对该技术的态度,指出,AI对研发起到辅助与基建的作用,它对提升玩家体验有不少帮助……越早入局AI的公司,越能占据优势。
本次AI技术的分享人,是趣加音频总监张志伟。
张志伟涉猎音乐、游戏、娱乐、教育等多个领域,他现担任北京现代音乐学院的音乐科技学院声音设计专业教研室主任、中国传媒大学录音大师班讲师,是第一批在国内高校中推动建立游戏声音设计专业的教育者,同时也是Wwise引擎、引擎的官方讲师。
作为趣加音频总监,他为游戏引入了影视、唱片领域的设计概念,并参与了包含端游、手游、主机在内40多部游戏项目。他为项目《State of 》所创作的《漫樱散华》《花海寻踪》《末日派对》获得了Apple Music、等全球音乐平台官方推荐;其原创的《阿瓦隆之王》获得了中国音数协颁发的中国游戏十强音乐大奖。
趣加的杜比全景声音乐棚
此外,作为独立乐团的创始人,张志伟还是上海国际艺术节委约艺术家,参与过多部舞台剧的创作,在融合了多种风格后,他创作出了《人生一串》、《二十四节气》。不仅如此,他还参与了多项跨国音频合作,这其中就包括他与日本知名作曲家岩垂德行共同创作的新曲目《繁花千里( )》。
在本次分享的数月前,他就开始研究AI在声音设计的应用:若游戏主城音乐太少,那能不能用AI做一个播放音乐的电台?若想让环境更有人气,用AI 做一些人声放背景如何……他尝试将AI技术带到游戏研发里去。
其实相比美术,游戏音乐接触AI的时间要更久。
早在1957年,电脑就能自己创造音乐。往后长达几十年的时间里,AI所被人畏惧的取代人类并没有发生,它反而成了声音设计的重要工具,甚至已经在协助不少游戏音频师们的创作——张志伟的演讲主题,也正是「AI of Game Audio」。
或许,通过这次演讲内容,我们可以从游戏音频的角度,看到AI技术对游戏研发具体能带来哪些好处?我们应当以怎样的方式,在日常工作中来应用这项技术?
以下为内容实录(为方便阅读,正文有删减调整):
大家好,我是张志伟,今天分享的主题是「AI of Game Audio」,里面包含了我们最新的研究成果。
其实,AI技术很早就在游戏、音乐等领域中得到应用。不过在近两年发展迅猛的AIGC(生成式AI),仍让我们相当激动——它所拥有的神经网络、深度学习能力,能解读需求,并取代一些传统生产环节。
而且,AIGC的操作难度,也比专门学习一门专业要简单。以音乐来举例,音乐创作需要一个人通过多年的学习训练、实践才能驾驭。但如今的AIGC不需要这些过程,它可以直接将文字、语音等内容生成音乐。
光这么说可能有些不太直观。这里有一份我们利用AIGC技术,为一段游戏CG动画制作音频的案例——与过往完全由人工创作的效果对比,二者已经相差不大:
那么我们把问题带到实践中,在游戏音频领域,当下火热的AIGC能带来哪些改变和帮助呢?这个问题需要拆解来看。
按常规分类,游戏音频一般有4个模块,分别是:音乐(bgmmusic)、语音()、音效(sound sfx),以及声音引擎(sound )。从开发流程来看,游戏音频有设计、制作、引擎、QA几个环节。
在近期实践中,我们就上述模块与环节,尝试了最新的AI技术。从结果来说,AIGC可以在设计方案、制作生产过程,显著提升音频设计师的工作效率,并为游戏项目带来更多价值。
下面主要展示我们在AI音乐与AI语音上的实践结果。
01
AI音乐能为游戏研发
带来什么?
按音乐制作流程来看,无论是歌曲还是配乐,它们的基础环节包括了「创作、制作」两部分,当中又分「作曲、作词、编曲、配器、器乐录音、人声录音、混音、母带」等步骤。
不可避免地,每个环节都需要许多专业人员参与。一个项目若想把多个环节交由一个人处理,即便是数字音乐制作普及的今天,也需要此人具备多年的专业学习和项目经验。
原因在于,游戏音频的生产模式,离不开人的深度参与。
其实按传统,声音合成技术几十年前就已在应用,它的核心能力就是无中生有地创造出世界上从来没有的声音。但它的载体是合成器(乐器),便需要懂得专业知识的人来驾驭。
AI技术也是同理。回顾过去,AI生成音乐已经走过了很多阶段:
第一阶段,AI要输入大量的核心作曲信息。1990年,自动作曲软件Band-in-a-box就已诞生。我们也可以称其为「传统自动作曲」。在软件上,作曲家只要输入和声、曲风等设定,就可以获得一段音乐。
不过,「传统自动作曲」因为自身的特点与限制,逐渐被应用在音乐专业的学习教案,作为学生学习曲风的辅助工具。
第二阶段,AI需要模糊作曲信息。2016年,人工智能产品AIVA出现,它也被我们称为「AI自动作曲」。在作曲家设定好曲风、调式等参数后,软件就会生成完整的音乐工程文件。
接下来,作曲可以直接对作品编辑,也可以输出文件或音频分轨,导入音乐制作软件来做深度修改。这一时期的AI音乐技术,支持作曲者反复修改调整,也为音乐带来了更多可能性。
第三阶段,AI只需要文字或图片信息,就能完成作曲。
这也是如今AI技术的阶段,它不需要音乐理论,也不需要专业知识,只要输入文字、图片即可生成音乐……当然,音乐能否达到要求,还得看AI训练的具体情况,不过它已经可以带来许多超预期的价值了。
那么用如今的AI音乐,能为游戏音频做什么呢?我们可以结合实践结果来看这一问题。
首先,AI音乐能够作为辅助作曲的工具,为我们提供快捷的灵感与参考。
这一方向由难到易有三种模式:
第一种是+传统自动作曲。我们先在中提问,获得和声、调式、配器特点等信息,然后输入到传统自动作曲软件中。
在此过程中,我们也可以结合作曲软件的优势,来丰富这首音乐的更多设定。
第二种是AI自动作曲+专业编曲技能。基于前面的AI自动作曲软件,我们可以提前设定一些条件,比如曲风、调式等前提,并由此获得指定音乐。这之后,我们可以提供工程文件与音频分轨,让作曲家相对快速地创作。
第三种则完全用AIGC来做。这一方法让音乐创作变得相当方便。这里以AIGC软件举例,它在识别文字、音频、图片后,就能直接生成AI理解出来的音乐:
官方演示
以上方式虽不能100%获得直接应用的音乐,但是可以让许多概念、想法,快速转变出对应的音乐灵感和创作参考。
其次,AI音乐能够产出风格化、类型化的音乐。
目前主流的AI音乐软件,优势在于生成这两种内容:第一种是大众化且风格突出的音乐,例如摇滚、爵士、嘻哈、史诗交响;第二种是填充背景,定义氛围的音乐。
在研发过程中,这一优势可以被应用到场景制作、玩法测试、用户研究等多个环节。目前,我们已经可以利用AI音乐,快速生成可以填充的素材,在项目的前中期帮助用研等部门测试游戏版本的音乐。
这里我可以举例一个内部项目案例。
根据谷歌调研与App id全球数据,我们该项目的用户对Hip-hop嘻哈音乐非常感兴趣。所以,我们决定在这个中世纪背景的游戏中,放一些嘻哈曲风的背景音乐。
这对音乐创作而言,是比较有挑战的。
按照传统的音乐制作流程,我们创作多首融合元素的背景音乐,从立项到完成,至少要几周时间。但是,我们通过Text to Music的AI音乐技术,仅用2小时就生成了全部需要的音乐,并且快速投入了游戏中做测试。
02
AI语音已经在
逐步投入使用
在应用方面,AI语音软件的作用,主要是语音调试合成,以及语音克隆。
简单来说,语音调试合成,是对软件中已有素材,做参数调试,期间,我们可以按需对口音、语速、断句、句间、情绪——比如疑问、惊讶、生气——进行设置。而语音克隆,是用户自己投喂语音样本后,再做参数调试。
AI语音软件的操作比较简单。如果我们有已经训练好的声音角色,就可以快速为游戏广告、买量视频、旁白等完成语音生产。
而且,AI语音软件也可以完成不同语言的转化,还能保留原本录制人员的音色、口音、语气等要素。这里我们先录制不同口音的人诵读《红楼梦》的内容,然后将其在AI软件中转为英文:
不过,若想要做出符合游戏中剧情对话、角色气质的语音,AI语音软件所花费的人力、时间成本,可能要比传统的声音演员录制语音更多。
而且从普通人的听感来看,现在AI语音软件的效果,还是有些不自然、生硬等问题;从设计师的角度来看,它生成的音频文件,也有动态差异大、卡顿等问题,需要人工花不少时间去做后期修复。
下面是的演示。在获得文字后,会快速的生成语音;如果我们输入更多设定后,它甚至可以唱歌。
如果将这些功能放在游戏开发中,我们目前探索出了两种应用场景。
首先是游戏开发中版本的语音需求。
若项目在早期对语音要求不高,可以选择AI语音来快速生成填充素材。下面是一些主流的AI语音软件:
因为若想让AI语音应用到正式版本,我们需要针对AI音频投入大量人力去逐句调试,以及人工后期处理,才能使其达到能在游戏中播放语音的正常效果。
其次是一些特殊题材的需求,比如与机器人、科幻相关的内容。
在趣加的已上线项目和在研项目,我们已经在包括中世纪、魔幻、生存等多种题材中使用了AI语音技术。
有意思的是,我们刚才提到有关AI语音让人头疼的不自然、卡顿等问题,在科幻题材以及一些需要想象力的需求中,就有了比较大的优势。比如这个案例:
按传统方法,个性、科幻感机器人语音的制作,需要配音演员到位的表演,以及后期音频技术一起努力才能产出。
但在制作上面案例的时候,我们仅使用Text to 的AI语音技术,生成基础语音样本,再通过逐字逐句的调试,便能获得一套贴近游戏设定,且让人满意的语音文件。
所以最后总结一下目前的AI语音在游戏中应用的优势和不足:其优点是不需要录音,可反复修改;不足之处在于,AI语音很依赖人工调试,它的音色也不够丰富。
03