文 |市值榜王玲
编辑 | 祝彰
1985年,英国卡尔顿电视台第四频道决定推出一档自己的音乐视频节目,但在当时的英国,类似的节目层出不穷,新节目要想快速受到欢迎,并不容易。
导演洛基·莫顿主导的团队想出了一个新办法:在主持人身上做文章。
接下来节目播出时,出现在电视机屏幕里的,是穿着深色西装,通常会搭配一个太阳镜的“AI主持人”Max 。
后来,外界把Max 称为“第一位计算机生成的电视节目主持人”。
不过,这个所谓的“AI主持人”其实是个假AI,当时的计算技术还不够先进,全运动、语音同步的人头无法用于电视连续剧。因此除了角色的宣传之外,Max 的真实形象并不是电脑生成的,而是由真人演员扮演,为了拍摄要经历长达四个半小时的化妆。
时隔近40年后,比Max 更先进的虚拟人开始大范围进入大众的视野。
这一次可是货真价实的虚拟人,他们可以直播带货、可以像人工客服那样与人对话、也可以像明星那样登台表演。
随着越来越多的虚拟人开始出现,这门新兴产业也迎来了一轮爆发性增长,入局的公司越来越多,他们对商业模式的探索也越来越清晰。
这篇文章,我们将重点探讨:虚拟人到底是一门怎样的产业?它的技术壁垒高不高?又凭什么赚钱?
一、进化:虚拟人是如何越来越像人的?
Max 诞生于虚拟人萌芽阶段,同期还出现了世界首位虚拟歌姬林明美。
只不过,在1980年代,这些虚拟人的拟人化程度很低,主要依靠手绘制作,仅仅是在外形上实现了对人类的模仿。
2000年以后,CG(计算机动画)、动作捕捉等技术不断革新,逐渐替代了早期手绘制作的方式。比如2001年上映的《指环王》中咕噜角色,便是由CG和动作捕捉技术创造出来的。
这一时期,出现了第一个现象级的虚拟数字人:初音未来,一个3D虚拟偶像。
初音未来其实是一款歌曲合成软件,当时 Media以雅马哈的系列语音合成程序为基础,开发了音源库,并以此制作、发售了虚拟歌姬角色主场系列。
后来2012年出道的中国内地女虚拟歌手“洛天依”,同样是以雅马哈公司的语音合成引擎为基础,制作的虚拟偶像。
但不论是“初音未来”还是“洛天依”,距离我们现在看到的虚拟人都还很远,因为即便有了CG、动作捕捉等关键技术的加持,但他们还是无法实现一个最重要的功能:与人交互,也就是说,虚拟偶像没有人格化。
直到2016年以后,虚拟人才开始变得越来越像“人”。
这一年,谷歌战胜围棋冠军李世石,成为第一个击败职业九段的计算机围棋,人工智能开始走入公众视野。
语音识别、自然语音处理、语音合成、语音驱动面部动画等技术、以及深度学习算法上的突破,为虚拟人的发展提供了技术支撑。
简单来说,以前要生成一个虚拟人,可能需要动画师、建模师将人物形象一笔一笔、一帧一帧画出来,完成原画建模之后,再通过实时渲染、真人动作捕捉等技术才能够实现,其中耗费的时间成本及资金成本都比较高,主要用在影视娱乐行业,比如数字替身。
但AI技术发展起来后,需求方可以直接利用AI来完成形象建模与后续的驱动、渲染,或者最初的形象建模靠人工,后续的驱动靠AI来完成,在拟人化程度不断提高的同时,也在很大程度上简化了制作流程、降低了制作成本。
比如2021年初,虚幻引擎的开发商Epic Games发布可生成高保真角色形象的工具 ,基于预先制作的高品质人脸素材库,允许用户以自动混合、手动调节的方式来快速生成虚拟人,小团队也可以借助这一工具快速生成自己的作品主角。
这一时期,我们看到的虚拟人形象,便是常驻主持人阵营的“小漾”、可以作诗作曲的清华大学虚拟学生“华智冰”、新晋带货达人“AYAYI”了。
二、产业:谁在做虚拟人?
去年,“元宇宙”的概念大火,带火了虚拟人。AYAYI、艾灵、华智冰、小诤、小漾、柳夜熙等众多虚拟人被推出。
紧接着,行业掀起了一股投资热潮。
开源证券在一份研报中指出,仅在2021年下半年,就有近20家相关企业完成了融资,包括IDG资本、红杉中国、顺为资本等明星投资机构。
不过,虚拟人受到广泛欢迎并非只因为“元宇宙”的推动,如我们上文所述,AI和深度学习等技术的突破在很大程度上降低了虚拟人的制作门槛,所以技术进步,才是虚拟人火爆起来的根本推力。
尤其对完全依靠AI驱动的虚拟人而言,最后呈现出来的效果,受到语音识别(ASR)、自然语言处理(NLP)、语音合成(TTS)、语音驱动面部动画(ADFA)等技术的共同影响。
换言之,只有具备了以上几个技术要素,一个虚拟人才能够看得见、听得懂、会思考、能回答、能呈现。
因此,想切入这一行业的玩家,需要具备以上某项或者几项上的技术能力。
当前数字虚拟人产业链分为三层:
基础层:主要提供建模/渲染引擎等基础硬件和软件。
数字虚拟人视觉制作部分的工业化流程,涵盖了建模、骨骼绑定、动捕、面捕、渲染、材质解算等各个环节,需要用到显示设备、光学器件、传感器等硬件产品,建模绑定、渲染引擎等软件产品。
这一层做得比较好的大多数是外国公司,比如大家熟知的《王者荣耀》《原神》,就是基于美国Unity公司的渲染引擎创作出来的。
平台层:提供软硬件系统、生产技术服务平台和AI能力平台。
入局的中国企业大多数位于这一层。比如AI四小龙商汤、云从、依图和旷视,比如在语音识别领域做得比较好的科大讯飞。
还需要特别关注的是百度、腾讯、阿里等头部综合大厂,他们基于自身在底层技术、硬件架构上的沉淀,在产业链布局时会相对全面,往往会提供相应的数字人技术服务平台,以及面向不同行业的解决方案。
比如网易的伏羲,能够提供游戏行业解决方案、空间智能互动解决方案、文旅虚拟代言人解决方案等等;
比如阿里有一个用在电商上的AI虚拟模特塔玑,商家只需要上传一张商品的平铺图,就可以生成模特的实拍图;
比如百度智能云推出了智能数字人平台曦灵,致力于打造智能的服务型&演艺型数字人,还推出了基于终端实时渲染的虚拟形象智能交互解决方案。
应用层:虚拟人所应用的各个场景。
比如,相对比较成熟的影视、传媒和游戏领域,以及金融、文旅等,这也是数字虚拟人实现商业化的重要途径。
三、价值:虚拟人靠什么商业化?
随着虚拟人的不断出现,外界对这一产业的市场前景,给出了较为乐观的预测。
量子位在《数字虚拟人深度产业报告》中预测,到2030年,我国数字虚拟人整体市场规模将达到2700亿元。
乐观预期背后,首先需要理解的一点是,虚拟人到底能带来哪些价值?这决定着这个行业的天花板,以及产业链相关参与方如何商业化。
从应用层来看,当前主流的虚拟人可以分为两种类型:服务型虚拟人和身份型虚拟人。前者主要用于代替真人服务,是现实世界中服务型角色的虚拟代表;后者多为虚拟IP/偶像,意在推动虚拟内容的生产,也可以是虚拟世界里用户的第二分身。
举例说明,拿下万科优秀新人奖的员工“崔筱盼”、浦发银行的数字员工“小浦”,都是服务型虚拟人,他们的出现,是要能实打实地帮助到企业;而乐华娱乐的虚拟偶像团体“A-soul”、靠短视频火起来的柳夜熙、与周深一起登台演唱的“邓丽君”,都是身份型虚拟人。
具体到应用场景、商业模式上,这两类虚拟人有着较大区别。
服务型虚拟人更多面向to B市场,更重要的是如何通过AI来为企业赋能,经济效益不在于直接创造增量收入,而是降低人力成本。网易伏羲营销负责人汤银辰就曾公开表示,虚拟人本质上的逻辑是降本增效,让AI更好地服务于人类。
因为现实中有很多简单、重复的工作,是可以被虚拟人所替代的,并且AI犯错的几率比真人员工还要小,还不受空间、时间的限制。
对入局的企业来说,他们可以向外提供成熟的服务型虚拟人、可以提供某项或多项技术,也可以为不同行业提供个性化的定制方案与服务。
这考验的公司底层的AI实力。
比如百度打造的首个可交互虚拟偶像度晓晓,她聚合了百度在多模态交互、3D数字人建模、机器翻译、语音识别、自然语言理解等多项技术上的能力,甚至能在高考语文作文中拿下高分,创作的画作还能参加西安美术学院毕业展。
身份型虚拟人更多面向的是to C市场,目前主要集中在游戏、传媒领域,变现模式以打造虚拟偶像或虚拟IP为主,先扩大C端的粉丝流量,再通过流量进行变现。
比如,AYAYI在小红书亮相1个月后,就相继与娇兰、保时捷等国际大牌达成了合作,2021年9月成为阿里巴巴的首个数字人员工,担任天猫超级品牌日的数字主理人;虚拟人翎 Ling同样成为商业宠儿,与VOGUE、奈雪的茶、特斯拉、乐町、KEEP 等品牌进行了跨界合作。
也就是说,身份型的虚拟人,商业模式的核心是粉丝经济,类似于真人明星,通过品牌推广、代言、参演节目、直播打赏、发布音乐专辑、售卖周边等方式进行变现,特点是能够带来较高的收入增量。
乐华娱乐的泛娱乐业务收入从2020年的2110万元增长至2021年的3790万元,主要原因便是虚拟艺人组合A—SOUL的商业发展产生的收益,安信证券预计,A-SOUL贡献了约1700万的增量收入。
但这类虚拟人的要求也会相对较高,如何打造出一个一线的虚拟偶像,并且确保它能长期留在一线,本来就非易事,这考验的,其实是品牌对IP、内容的长期运营能力。
从更宏观的全球视角来看,在这一层面,中国是落后欧美的,毕竟,有太多中国企业都想成为迪士尼,但他们最终都渐行渐远。
原因在于,与国外成熟的IP运营体系相比,国内文娱公司虽然已经有了IP的构建意识,但是IP持续更新与运营能力有所欠缺。
虚拟人产业是一次实现追赶乃至反超的机会,但已经处在或者即将进入这一产业的公司需要想好,要短期的利益还是长期的数字资产,在新一轮的IP孵化与商业化机会面前,这很可能会决定他们能在这个行业走多远。