如何训练chatgpt写本地生活脚本 拓元智慧林倞:AIGC的真正商业机会,在于企业级大模型和多模态应用

默认分类2个月前发布 admin
2,001 0
ChatGPT国内版

获得瞎猜

来到拓元智慧,很难不注意到堪称豪华的联合创始人团队,也是投资人最爱的那种“互补型”团队。

林倞,中山大学教授,IAPR ,科技部重大项目负责人,曾任商汤科技研究院执行院长;商业化负责人黄伟鹏,中山大学计算机&管理双学位、前兔展云医联合创始人/CEO;CTO陈添水,中山大学博士,前暗物智能研究中心负责人,ACM优秀博士;CFO寇锦玮北京大学经济学学士和硕士学位,海外名校EMBA,负责过多家上市公司的IPO。

近期才引起全民讨论的“AGI(通用人工智能)”概念,在拓元智慧的创始人团队中,已经是一个老生常谈的话题了。

“虽然我们的团队已在AGI方向上研究十多年,也是国内最早提出认知AI、AGI这些概念的人,但苦于感知层能力不足,认知层的输出效果并不是很好。”拓元团队直言,正是因为有了前期的技术探索,所以如今GPT技术范式得到验证后,拓元智慧便能迅速结合多模态模型展开应用层面的探索。

拓元智慧采用的并不是大模型之上再叠加模型,这种“修修补补”的路径;而是运用因果模型、心智模型等认知层AI技术,对大模型技术范式的升级,从底层大模型本身解决实事正确、合理方面的问题。在应用层上,目前已经落地了产品“元分身”和智慧零售——这是拓元智慧对大模型企业级应用的探索之一,主要用于营销和销售环节的内容生产、传播及辅助完成交易。

我们原以为拓元智慧的价值来自在国内数字人行业中的领先的地位,但他们在一开始就特别强调,“我们不只是一个做数字人的公司。”

对话由此展开。我们从了解拓元智慧开始,一直延伸到了对、AIGC、AGI等热词的探究。在行业前驱者的眼中,我们看见了一个全新的人工智能行业,并揭开了拓元智慧被投资人寄予厚望的原因。

拓元智慧价值的来源,不只是因为其在数字人领域的领先地位,更在于他们未来要做的事情——解决大模型企业级布署和应用的难题。

为了解决上述的问题,拓元智慧构建了一套“多模态认知大模型”……这是一个很陌生的名词。

图源:拓元智慧 多模态认知大模型图示

要理解这套“多模态认知大模型”究竟是什么,以及他为什么可以解决大模型企业级部署和应用的难题。我们需要增加一些知识储备,起码要先搞清楚,如今大模型在企业级的部署中,存在着哪些难点。

拓元智慧发现,大模型快速推进商业化的阻力无非两个:一是大模型胡编乱造的问题还没有解决,二是大模型难以覆盖碎片化商业场景。

01

大模型也要长“脑子”

体验过的人,都会惊叹于他表现出的惊人对话能力和丰富的知识储备,与对话的体验,已经非常接近和真人对话的感觉。

仅是从这点出发,都能很自然地联想到智能外呼、智能客服、法律咨询等商用场景,似乎大模型的商用近在咫尺。但实际情况却并非如此,与大模型发布时热火朝天的景象相比,厂商接入大模型的热情明显冷淡了不少。

根源就在于诡异的创造力,或者说一本正经胡说八道的能力太强了。如果你想听讲“林黛玉倒拔垂杨柳”的故事,他并不会纠正你,而是会输出一个合理中又带着一丝诡异的故事。

图源:网络

一本正经地胡说八道,大模型商用的硬伤

大模型究竟是聪明,还是蠢,这很难评。但企业应该不会放心用这样一个很会胡说八道的大模型,去生产内容、做客服、做咨询。

这是横在大模型企业级应用面前的硬伤,但大模型的胡说八道的解决,绝不是通过狂堆算力,期待“大力出奇迹”的效果。

虽然各大公司的工程手段和数据不一样,大模型表现出来的能力也不一样。但大模型的技术范式、技术路线,基本已经明确。众多公司都在这一条技术路线上狂堆算力,已经到了极限。

况且,现在大模型现在出现了“涌现能力”,就是当参数量超过某个阈值后,大模型的能力会一下子显露出来——尽管学术界对此并没有一个权威的解释,但“涌现”已经出现在大模型的训练当中了。

也就是说,尽管算力堆到极限,准确度也经过了“涌现”,但大模型仍然不能保证输出结果的客观正确,所以问题的症结并不在算力上,而是出在算法的底层逻辑上。

现在大模型普遍采用算法,其底层逻辑采用统计归纳法,生成内容的方式,是基于前文语境去预测生成的下一个单词,输出的是它经过比较学习所有词之后,出现概率最高的那个词,所以能够生成流利且合乎语法的句子,但很难保证输出的结果是客观正确、合理的。

林倞很早就认识到了这一点,“解决大模型输出的客观正确性,需要等待理论和算法的同步。这也是中国创业者和中国科学界的机会,起码在这一领域,中国与其他国家站在同一起跑线上。”长期从事面向视觉大数据的语义分析与智能学习相关领域的研究,并斩获吴文俊人工智能自然科学二等奖、顶级国际会议ICCV最佳论文奖提名等荣誉,林倞深厚的技术背景,让他敏锐地察觉到了目前大模型在算法上的弊端。

拓元智慧给出的解决方案,就是在大模型的构建和训练中,引入自研的“因果模型”来保证大模型输出结果的客观正确性。

拓元智慧添加的因果模型,让大模型能在原本归纳两个事物关联性的基础上,去学习两个事物间的因果关系,搞清楚是因为A所以有B,还是因为B所以有A,以此来保证输出结果的客观正确性。

但这还不够。如果说因果模型的加持,是为了让大模型拥有“智商”,更具客观和理性;那加入心智模型,就是为大模型赋予“情商”,让生成的内容更具温度。

多一点人味,赋予大模型情商

想象一下我们日常交流的场景,其实很多时候一件事并不是非黑即白的对立关系,没有一个所谓的“正确答案”,而是一种人的偏好。比如有人喜欢吃辣的,有人喜欢吃甜的,这没有对错之分,只是对个人偏好的表示。

拓元智慧的“心智模型”,就是去对用户的主观偏好进行对齐,也可以对某个人群、某个领域做偏好对齐;企业也通过导入所属领域的专业知识、知识图谱、知识库,让大模型更快地适应行业所需。

比如你是一个律师,你不但可以将法律行业的数据,拿去训练、调优大模型;也可以设定强烈的价值观或个人色彩,比如社会主义价值观、言语很犀利、说话很直接的个性,抑或很知性的形象,这些都可以在心智模型这一层去做灵活的设置。

可以说,拓元智慧在大模型通用的技术范式之上,又引入了因果模型和心智模型这两层特色的自研技术,让大模型的智商与情商迎来一次跨越,也让大模型离企业级的部署,更近一步。

这套“多模态认知大模型”才是拓元智慧业务开展的底座,所以他们才会在一开始就提醒我们,“拓元智慧不只是一个做数字人的公司”,这套多模态认知大模型,才是他们的主打产品。

02

未来属于垂直领域的大模型

如何训练chatgpt写本地生活脚本 拓元智慧林倞:AIGC的真正商业机会,在于企业级大模型和多模态应用

再让我们回到第二个问题:大模型为何难以覆盖碎片化的商业场景?其实这是一个杀鸡焉用牛刀的关系。

大模型对于通用能力的提升是毋庸置疑的,但在很多商业场景,用不到这种很强的通识能力;商业的世界最显著的特点就是有很多碎片化的消费场景,所以企业往往更需要在某个垂直领域专精的大模型。

但在实际推进过程中,一方面让大厂的大模型为某一个客户,或者某一个行业去做专门的适配,是一种奢望;另一方面,企业有很多数据是非常敏感的,交付给其他公司训练大模型,自然会有安全性的担忧。

因此,以、谷歌、百度为代表,这部分有大数据、大模型、超级算力的大厂,肯定会有很多覆盖不到的商业化场景。

私有化部署:发挥大模型能力的上限

在可预见的未来,如果大厂的大模型不去迭代底层模型,支持私有化布署,那企业只能在大厂提供的API接口上,做各种提示工程来调用大模型的能力。

但这是一种上限很低的大模型调用方法,只有在企业自己掌握、拥有,甚至能实时调优的前提下,大模型才能发挥出他应有的能力。

所以拓元智慧判断中国大模型的未来,将会朝着垂直领域大模型去发展,用已经训练好的大模型作为一个初始状态,然后再结合各个行业的特点去进一步地训练、调优。林倞认为,“在这个过程中,谁能找到数据闭环、业务闭环,谁能融合场景,就能取得先机。”

因此,拓元智慧在提供元分身、智慧零售,这些让企业可以直接投入应用的标准化服务外;同时也具备为企业提供私有化大模型部署的能力。

大模型私有化布署后,企业可以在保证数据安全的前提下,将核心数据用于大模型的调优。并且将后续运营过程中产生的数据,用以继续训练大模型,以此形成一个数据闭环,不断提升企业私有大模型的能力。

多模态生成:填补碎片化的商业场景

同时,我们也需要认识到,碎片化的商业场景,需要有丰富的内容承载形式与之相匹配。

举个例子,如果将大模型用于智能客服,可能只需要其具备根据用户咨询的问题,实时去文字输出的能力;如果是用于智能外呼,那对大模型输出内容的要求就更进一步,需要实时输出语音。

但如果更近一步,将大模型应用在更复杂的场景中,譬如运营一个抖音IP,或者应用一个有前端人象、实时视频输出内容的多模态智能客服,这无疑会带来更高层次的服务效率、用户体验,但也需要大模型具备生成文字、图片、声音,以及视频的能力——这就是所谓的“多模态”,让内容用更多的方式呈现出来。

这听起来有些天方夜谭,但拓元智慧的多模态认知大模型的生成能力,已经有能力做到这一点。“元分身”就是对这种能力的调用和展示下,所落地的一款标准化产品。

03

元分身:内容产出的“核武”

“抓不到老板拍预告视频怎么办。”最近正在筹备,但是我们弯弓的创始人梅波老师要出一个星期的差,愁坏了视频剪辑的小伙伴。于是我们就用老板的数字人制作了一个视频——

不需要与真人抢时间拍摄,不用特意找光线、角度,不用担心口播出错……数字人在短视频平台中的风靡并不意外。而且在没有提示的前提下,我们并不会去特意分辨屏幕中的人是否是数字人。

拓元智慧商业化负责人黄伟鹏,向我们展示了几个正在用元分身从事短视频创作的IP,其中不乏百万级大V的身影。

原以为数字人的应用还很遥远,但其发展的态势和能力的范围,还是震惊到了我们。

10分钟真人采样,1天分身模型构建,以及1.2万元的建模费用就能够拥有一个对真人外形1: 1复刻的专属数字分身,他不但可以模仿说话时的表情和手势动作,就连声音和语气也能做到95%的相似度。

元分身为数字人产业带来的第一项冲击,就是将构建一个难辨真伪数字分身的成本,压缩到了极致。

数字人在企业级的应用,肯定要考虑到成本的问题。柳夜熙是前段时间爆火的数字人,但电影级别的呈现效果后面,是燃烧的经费和相当耗时的CG建模过程。

元分身则采用了另一种建模方法,脸部和手部这些动作较多的部分会用3D建模,而人体躯干部分则用2D建模,并将拍摄场景拟定在普通的摄影棚或自然场景中,以此来极致压缩数字人的成本。

目前,元分身数字人更多应用在短视频制作和本地生活直播中。

数字人建模完成后,只需要在元分身的视频创作系统中输入视频的脚本,就能自动生成视频。

图源:元分身 元分身视频创作系统相当简洁,大部分操作都能自动完成

再也不需要纠结光打得好不好,拍摄、剪辑太久导致错过热点……元分身让视频创作的流程,简化为只需要撰写视频脚本,甚至连脚本也可以AI生成和改写!

低成本、大批量生产短视频的优势,已经在科普、媒体属性的行业中显现了出来。

元分身有相当多的客户来自医学界。医学科普是一项造福社会的事业,但一直以来都困扰于产出成本高、医生忙于日常的诊治和科研等因素,难以得到快速的拓展。数字人的技术相对成熟后,许多医生都采用了这种方式入驻短视频平台,投身医学科普中。

不过,元分身数字人在直播场景的应用,也相当激动人心——我们在拓元智慧的直播间中,见到了他们的一位员工正在同时掌控着3场数字人直播的进行,而其中不乏已经连续直播了超过一百小时仍正常运转的直播间,没有封号烦恼。

罗永浩可能也没想到,自己可能间接促进了数字人向直播场景的拓展。罗永浩搞出“日不落直播间”后,这种超长待机式的直播,此后就成为了直播带货界的标配,这让低成本拉长直播时长的需求暴增。

数字人直播恰巧非常适用这种场景。不过,我原以为数字人只会按照直播脚本循规蹈矩地进行,只把他当做24小时循环播放的广告。但元分身数字人适应直播的能力,远超想象。

图源:元分身

“现在数字人直播应该只能按照既定的脚本进行吧?是不是不能回答观众的问题。”面对我的问题,黄伟鹏给出了否定的答案,元分身的数字人已经可以做到实时回答评论中的问题。

“那答案肯定是事先设定好的吧,只能关键词触发!”我的心里甚至带着些祈求,希望数字人能给我们这些智人留点面子。

但答案依旧是否定的。预生成答案,然后由关键词触发只是一种方法;即便没有预生成好答案,元分身也支持在后端生成答案后,再输出回前端生成的影像和声音。在这个过程中,企业可以通过接入自己的知识库,对大模型底层进行训练,让数字人的回答更加精准。

如何训练chatgpt写本地生活脚本 拓元智慧林倞:AIGC的真正商业机会,在于企业级大模型和多模态应用

能够实现这种效果,正是因为元分身调用了在前文提到的“多模态认知大模型”的能力。实际上,在大模型的加持下,元分身能做的远不止于此,而是从直播前的脚本准备,到直播中根据直播间数据实时调整产品讲解顺序、控场活动,甚至直播后的复盘都能胜任。

图源:元分身

看到这里,任谁都能感觉到,以数字人为代表的AIGC对于原有的内容运营逻辑和营销生态的冲击,将是颠覆性的。

改造、取代、颠覆、存活……无疑是接下来每个企业在AIGC时代,都需要思考的关键词。

04

AIGC带来营销范式的革命

“数字人产出单条视频的成本,大概只有真人产出视频成本的十分之一甚至更低。”黄伟鹏认为,以数字人为代表的AIGC,为企业带来的最直观效果就是内容生产的降本增效。

数字人内容产出的成本,在场地租赁、场景布置、拍摄设备、出镜者时间成本等方面的现金成本面前,真的不值一提。

更为重要的是,用数字人进行内容创作带来的效率提升,能够在很大程度上节省时间和精力成本。AIGC的加持下,原本只能运营一个IP的企业,完全可以在不提高预算的前提下,做起一个IP矩阵。毕竟视频创作的流程已经被简化成了选题、创作脚本这两步。

但从更长远的角度来看,将大模型的能力嵌入到AIGC中,未尝不是企业营销重新开局的机会。

林倞对于国内大模型的发展非常乐观,“我大胆判断,国内大模型的水平在1到2年内就能达到的水平。这种突破一旦发生,国内的数据优势、工程师优势和应用场景丰富的优势都会被充分释放。”

林倞认为,国内大模型企业朝着垂直领域去做的方向没有问题,直接对的厂商最后可能只会跑出几家。更多的企业会将大厂的大模型作为一个初始状态,进一步在垂直领域内进行调优、优化。这种基于行业的大模型,就是MaaS(Model as a ,模型即服务)的概念。

MaaS的业态很有趣,假如某一垂直领域的市场很大,巨头就会入场将MaaS做得非常标准化,比如人脸识别系统领域,激烈竞争过后只有几家巨头在做;反而是集中精力攻克一些比较小的场景,会更利于快速闭环,形成壁垒,比如拓元智慧已经在智慧零售下的无人售货柜场景做到了行业第一,虽然这一赛道比较小,但目前绝大部分公司都采用了拓元智慧的算法、技术。

因此,林倞判断,企业营销将是垂直领域大模型的主要发力点,虽然营销听起来是个红海市场,但营销又会细分为汽车、护肤品等不同的行业场景,不同行业、不同体量的企业有不同的玩法。这就不容易出现一家独大的情况,会有更多潜在的机会点。

而在这个过程中,AIGC对于包括在内的营销手段的改造,将是颠覆性的。林倞认为,“只是有少数公司能够抓住这个机会活下来,而那些存活下来的公司,必须要具备……”

这里容我卖一个关子,在即将举办的「2023 大湾区 AIGC 与私域流量大会」中,我们拟邀林倞老师到场分享企业级大模型应用、AIGC带来的挑战等话题,在此邀您到场一同感受这场AIGC带来的营销范式革命。

总结

对拓元智慧抽丝剥茧后,不难发现他们团队的目标真的很简单纯粹,就是要清除大模型在企业级部署和应用上的阻碍,这里不光是大企业,也包括更广大的中小企业。这是一条得到了投资人认可的路径。

在这个过程中,拓元智慧构建了一套“多模态认知大模型”,制止了大模型的胡说八道,同时也提供了覆盖碎片化商业场景的能力,让企业级的大模型布署和应用成为可能。

在可预见的未来,大模型和AIGC无疑将为企业营销和内容产出、销售成单,带来翻天覆地的改变。在这个领域里面,拓元智慧已经表现出了不俗的竞争力。

2023 年 6 月 2 日,「2023 大湾区 AIGC 与私域流量大会」将在广州举办!希望你可以通过这次大会掌握AI时代的确定性,挖掘隐藏在私域的增长!

想要知道大会都邀请了哪些投资人和嘉宾?想要知道他们的分享的主题?所有消息都会率先发布在 #大会预热群 中,我们也会不定时在群里举办抽奖活动,送出大会门票、免费课程名额、营销书籍等,欢迎来聊。

进群请扫码并备注「大会」:

「内容数字化/AIGC」||||

「品牌案例拆解」|海澜之家 |||| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||s

「观察」||||||||||||||||||||||||||||||||||||||||| | | ||

323AI导航网发布

© 版权声明
广告也精彩

相关文章

暂无评论

暂无评论...