出品:碳链价值(ID:cc-value)
2021年,宋震和合伙人翁冬冬创立「数字栩生」。从高校辞职到公司成立,宋震表示很需要勇气,但数字人是要做一辈子的事情。
据公开资料,数字栩生团队主要来自北理工、中科院自动化所、北京电影学院未来影像高精尖中心等科研机构,集合了光学、图形学与计算机科学等各领域人才。公司成立之前,团队已经在高校探索高逼真数字人的采集与AI驱动技术近5年时间,并且参与了多个国家和省部级重点研发计划里的数字人课题,形成了具有完整自主知识产权的数字人解决方案体系,沉淀了丰富的技术实力。
宋震坚定看好数字人赛道。在他看来,数字人是未来人机交互的革命。
他此前预测,「人机交互革命」实现进程可能还需要好几年时间,但是的出现加速了这种进程,他也期望在这场革命中数字栩生扮演好「造人」的角色。
自今年春节开始,在数字栩生的AI小脑中台中,就已经能够帮助程序员 写代码了,效率有了很大的提升。但另一方面,在情感交互、价值观取向甚至监管治理等方面还需要谨慎对待。
至于如何「造」出更好的人?宋震认为,未来的数字人既要有好看的皮囊,又要兼具有趣的灵魂,就像美剧《西部世界》里的人一样,我们始终坚信未来数字人会朝着那个方向发展,而且速度会越来越快。
以下为对话内容(略有删改):
问:你们也在关注和大模型吗?
答:我们在去年就把国内大模型基本上测了一遍,像系统响应速度、回答准确率等都测了。目前,我们的数字人大模型主要使用的是清华大学黄明烈教授创立的「聆心智能」。至于,我们公司很多员工已经在用干活了,它是很好的生产力工具。
问:什么时候开始用的?
答:差不多在去年12月份。
问:那你们使用GPT提高生产力够早的。
答:对。我们跟大模型跟了很久。我们看中的不是大模型聊天能力,而是生产能力。下半年可能更多大模型能力体现在多模态上,就是看图、出图、看视频。
问:您觉得现在的出图能力如何?
答:实时性差一点。我们主要做实时交互数字人,如果5 秒钟、10 秒钟才出结果,交互体验就很差。
问:您怎么看 ?
答:专业知识和编程能力比较强,但也有好多问题都是在一本正经的胡说八道。GPT回答开放问题时,会有一些可参考性的答案。但在回答特定问题时,答得不一定对。
我们更看重国内大模型,做语料二次训练这种方法。前段时间,我们做「挑战杯」,就是用创业语料让它重新训练一遍,所以它在回答创业问题时,回答得特别好。
问:你们会做大模型吗?
答:我们做小脑,做数字人的AI小脑。跟 NLP和知识图谱一样,大模型可能在能力上比传统 NLP 更强,我们会用大模型来做数字人交互部分。
问:在成立数字栩生前,你们已经在北理工做了很多年数字人。
答:是的。十三五时期很多国家级和省部级重点研发计划就跟数字人有关,这里面很多科研项目都是我们团队牵头做的。近期我们还参与了“十四五”国家重点研发计划《实时高逼真挛生数字人关键技术研发与应用示范》,该项目是数字人领域的首个国家级项目。
问:是什么契机让您从高校出来选择数字人赛道创业?
答:五六年前,我们发现痛点,虚拟世界里的人质量很差,传递不了、也表达不了任何的东西,就是个假人。我们围绕这些痛点,想着怎么在虚拟世界里做好一个能交互的高真实的数字人。
另外,我们坚定看好数字人方向。数字人是一个新兴的产业,尤其是随着人工智能和计算机图形学等技术的不断发展,数字人的应用场景将会越来越多,如游戏、影视、教育、医疗等领域,可以说数字人才是真正未来人机交互的革命性的东西。 也不是,它缺少人形界面,只是一个问答型聊天机器人。真正人和人之间交流,不需要文本。未来数字人如果能更好的跟 AI 结合,可能人机交互方式不需要打字,你直接告诉它需要一段什么代码,它就能帮你写好,可能还有一个机器人再帮你检查一遍····就会越来越方便了。
机器更多被定义为生产力工具,而人不是生产力工具,人更看重感情交流。未来虚拟陪伴、虚拟伴侣、心理舒缓这些领域可能会大量用到数字人,但要求有更好的 AI 理解力,不只是具有知识,还要具有感情。
问:现在还不具备感情。
答:现在不具备。为什么我们更看重大模型的多模态交互能力,这个能力未来能发展出来感情。现在发展出来的都是逻辑能力、推理能力,没有感情能力。
问:未来如果附加一个语音功能或者数字人功能会怎么样。
答:要看 未来能力发展的路线。GPT-4已经快把互联网 30 年的语料收集干净了,再增长,去哪找语料?GPT-4 被大量应用以后,互联网上多数新语料都是 GPT自己产生的,那如果再用GPT自己产生的语料去训练自己,会是什么效果呢?
问:会自我进化吗?
答:春节有一篇论文说到大模型涌现性,就是大模型应该是在10至22次方,不光是模型就 GPT用的,其他模型也有这种发现,就是到10到22次方的数量级后,AI 能力就产生涌现性。涌现性是个挺玄学的事,再过2年 GPT收集到的语料都是它自己产生的,到那时会是什么样?现在训练GPT的语料是人类产生的,但未来它已经把互联网上语料收集完了,这时也许它就会见到自己天花板。
问:目前数字人最突出应用场景有哪些。
答:现在数字人背后的大模型更多是知识型和功能型。
问:功能型和知识型数字人应用场景是否足以支撑一个成熟的商业模式。
答:目前功能型数字人是可以的,它能取代很多人的工作,比如从讲解员到前台行政人员、法律顾问、教师以及导游等都能取代。
问:您觉得数字人成为主流趋势背后的底层逻辑是什么?
答:最基本逻辑就是以前知识储存在人脑里很珍贵,不管搜索引擎还是问答社区,不能做到知识廉价化。而现在GPT可以给我们做法律顾问,帮我们编程等等,让知识变得廉价了。其实不只是 GPT,包括现在很多AIGC工具,比如 也会取代很多艺术家的工作。这时如果把知识装进数字人,那数字人就成为了一个非常有知识的员工,就会出现一种新的商业模式,通过数字人卖知识。
我举个例子,我们给某个博物馆一直在做POC(Proof of ,是业界流行的针对客户具体应用的验证性测试)。他们有个需求,希望有个数字讲解员能够针对不同的参观对象做不一样的讲解,比如既能给幼儿园小朋友讲,也能给古生物博士讲。
没有大模型之前,这是一个非常巨大的知识图谱,各种语料、各种层级,要分得很清楚。有大模型后就简单了,只需要把语料往大模型里一扔,再训一遍,就被轻而易举的解决了。去年我们还在帮他们设计知识图谱,但大模型出来之后整个技术路线就全变了。
问:未来数字人也往这个方向去发展吗?
答:我们前年对欧美和中日韩等亚洲地区的数字人产业做了分析。欧美数字人产业更偏「功能型」和「服务型」,比如我们对标的Soul 。中国数字人产业是在去年、前年发展起来的,基本以IP型数字人公司为主,比如Ayayi、柳叶熙等知名 IP。但这也不是中国特有的情况,日本和韩国也差不多,亚洲人更接受偶像文化。
但随着大模型的发展,市场也在发生转变,今年功能型数字人可能会爆发。下半年,大模型如果能朝着多模态能力发展,它有了视觉,有了嗅觉,有了听觉,那它比现在要厉害得多。现在大模型只有语义理解能力,只能理解文字。
问:如何定义一个好的数字人?
答:一个优质的数字人应该是既有好看的皮囊,也有有趣的灵魂。这样的数字人我们才愿意跟它交流,甚至爱上它都有可能。如果这两个特质能很好的结合起来,未来数字人就是一场大革命。
之前我认为人机交互革命还需要一定的时间,至少5- 10 年,因为这是要随着 AI 发展而发展的。但今年 带火了AI ,资本、人才、关注度都有了,那可能会加快这个速度。
问:您觉得数字人与元宇宙之间是什么关系?
答:元宇宙是一个革命性技术,它把二维世界变成了三维世界,而数字人是未来元宇宙的重要组成部分。以前我们看到的各种内容,像电影、电视这些都是二维的,而元宇宙给人类打开了一个三维世界的版本。
问:你们在研发数字人过程当中会考虑人设问题吗?
答:会的,数字人应该是千人千面的,跟真人一样,每个人都有自己独特的个性。
问:如何体现出来?
答:两个方面,内在就是大脑那一层,跟GPT这种 AI 技术相关,目前 AI 就可以提供人设设置。外在跟外表相关,像我们的光场采集系统等4D设备,就是为了 1: 1把个人完整获取下来。
问:我们近两年实现盈利了吗?
答:差不多盈亏平衡。去年疫情对我们影响还是挺大的,5个月基本没上班。
问:现在找我们做数字人的公司多吗?
答:挺多的。主要两块,一块是造人,我们能够实现高精度高写实的数字人交付,凡是有高写实数字人需求的公司,都会问到我们这里来。还有一块是 AI 连接,在大模型的支持下在一些特定场景落地,比如数字员工、数字讲解员、数字前台等等。
问:客户会提连接的需求吗?
答:一般不会让客户用这个。响应时间比较长,说一句话可能要等 5 秒、10 秒才能回复,体验不够好。另外在国内也没有合法注册以及一些价值观问题。
问:现在你们的数字人已经实现了人工智能。
答:目前,我们的数字人大模型主要使用的是清华大学黄明烈教授创立的「聆心智能」。未来的数字人既要有好看的皮囊,又要有有趣的灵魂,就像美剧《西部世界》里的人一样,那就是人人幻想的世界。我们始终坚信未来数字人会朝着那个方向发展,而且现在速度会越来越快。
问:你们会打造类似《西部世界》那样的虚拟世界吗?
答:我们还是专注在做人,致力于把数字人的外表和内在合二为一,创造有感情有温度的数字人。至于整个虚拟世界,那是另外一个领域了。
问:数字人在服务实体经济方面有哪些优势?
答:站在仿真角度看,这个世界无非4样东西:人、装备、环境和数据。
之前数字经济最早是从数据打通,现在是数字工厂、数字孪生都是装备和环境打通,目前还缺少人的要素。未来在数据经济这个大盘子里,人的要素是必不可少的。之前看到所有大型数字孪生项目、数字工厂都没有人的要素,那未来可能再往上加,加的都是人的数据,构建一个数字世界。
问:你们公司护城河是什么?
答:一是超写实。从硬件采集设备、算法、软件到工作流程、生产流程,全是我们自研的技术,这是用7-8年时间一点一滴摸索出来的。
二是数据集优势。2017 年到2019 年,我们基本把电影学院表演系学生都采集了,从 2020 年到现在,一直在采集中戏表演系和主持系的学生。要采集这么多的人脸数据,必须有采集设备才能完成,包括成立公司之前,那时候跟达摩院、华为、京东 AI 实验室等都有合作,他们用的就是我们扫描的数据。