最近几天互联网刮起了一阵风,起因是发布了一个全新的聊天机器人模型—— ,同时这也是继GPT-3.5 系列的主力模型之一,目前尚处于测试阶段。
就连马斯克也在感叹“很多人疯狂地陷入了 循环中”,“ 好得吓人,我们离强大到危险的人工智能不远了”。
从吟诗作赋,到写代码,再到写剧本、做高数,发布的免费机器人对话模型回答处理多领域问题的能力之强悍,引发全球关注。
尽管该模型目前仍处于测试阶段,但面世仅一周,便有超过一百万用户使用。“明天就要抢走人类饭碗”的调侃也不绝于耳。
什么是
有了GPT-3.5的加持,经训练后提升了对答如流的能力。GPT-3只预测任何给定的单词串之后的文本,而则试图以一种更像人类的方式与用户发生互动。的互动通常是非常流畅的,并且有能力参与各种主题,与几年前才面世的聊天机器人相比,显示出了巨大的改进。
官方称,是在人类的帮助下创建并训练的,人类训练师对该AI早期版本回答查询的方式进行排名和评级。然后,这些信息被反馈到系统中,系统会根据训练师的偏好来调整答案——这是一种训练人工智能的标准方法,被称为强化学习。
有多强大
有码农用编码问题来测试它,结果令人满意:
有人用《老友记》等喜剧演员为角色,让它写一些肥皂剧对白,结果惟妙惟肖:
解释极为专业的科学概念也不在话下,下面这个关于热力学的问题,解答起来深入浅出,而且,态度十分循循善诱:
甚至于,它还可以写一些基本的学术文章,如下面这篇大学历史论文,比较两位学者的民族主义理论:
还有一种奇妙的能力:回答基本的、甚至于有些无聊的琐碎问题。这使得许多人认为,像这样的人工智能系统有一天会取代搜索引擎。聊天机器人是根据从网上收集到的信息进行训练的。因此,如果能准确地呈现这些信息,并以更流畅和对话的语调来进行反馈,这将代表着传统搜索的巨大进步。由此,有人对比了在谷歌的搜索结果和与的聊天结果之后,自信地宣称谷歌已经“完蛋”了:
业内人士如何看待?
已拥有多个AI聊天机器人成功落地案例的国内顶尖人工智能公司小冰,如何看待风靡全球的?
带着这个问题,12月8日《每日经济新闻》记者专访了小冰公司CEO李笛。他认为,市场对于取代搜索引擎,以及在其他各个领域实现商业化落地的畅想,短期内不太可能到来,成本将成为制约其实现商业化的重要阻碍。他举例说,如果小冰用的方法来运行系统,现在小冰每天承载的交互量就需要花几亿人民币的对话成本。
市场对热情过度
在李笛看来,目前,行业内对的关注与热潮已经有些过度。
“人类为什么会感到激动?”李笛觉得,当人们普遍对一件事情有一种预期,进而去交互时,发现它远超大家的预期,人们就会惊讶,“但即使是针对人工智能,在最近这些年惊讶的次数也很多了;稍微往前一点,GPT3出来的时候大家就很惊讶,但是也没有发生什么;再往前,下围棋赢过最好的人类棋手,大家也很惊讶,但是之后似乎也没有改变什么。”
不过,李笛也提到,关于,有三件事情需要相对理性来看。
首先,有非常好的创新,即证明了在原有的大模型基础之上,进行一些新的训练方法,可以更好地提高对话质量;其次,并不构成一个大版本的迭代,而是对上一个版本的微调,在一定程度上弥补了极大参数量的大模型的一些缺陷。“即便是来讲,它也被定义为GPT3.5,而不是GPT4。”此外,李笛认为,的突破,主要是研究性质上的突破。
对目前市场普遍想象的是否马上就会迎来商业化落地、产生颠覆性的影响,李笛认为不太可能。“但是,这一点都不影响我们在最近这些年里,尤其是在大模型的思路出来以后,我们又一次看到在对话上的一个很大变化,在这条路上大家都在往前走。”
在训练方法上,具体做了怎样的创新,以至于能够大大提升其作为聊天机器人的对话质量?
李笛分析称,很多人说的训练是基于人类反馈,这并不完全准确。人类反馈至少有两个含义,一是指在训练中,通过反馈来实现;另外则是产品在与用户交互时,通过大量的用户与其交互形成的反馈,不停地让模型进步。“这两者的价值是非常不一样的,更大的价值其实在于后者,即产品在交互过程中得到反馈。”
李笛介绍,过去对于AI聊天机器人的训练主要是基于数据,即在机器进行对话后,针对对话内容进行训练,调整、优化对话内容的数据;而则是针对数据形成的模型进行训练,简单而言,具体的训练方式是:人先写出一些指导性的问与答,用这些问答对大模型进行训练,通过一系列反馈式的训练方法,让大模型逐渐沿袭人所给予的关于问答的指导性意见、逻辑。“从这个角度讲,即使是进行多轮对话,本质上来讲依旧是一个问答系统。”
李笛认为,这样的训练方法背后的技术含量,通常不是算法模型上的技术含量,而是来自训练者本身的能力,包括团队自身的经验积累。例如,由人来写问与答,让机器学习并给出结果,同时人要再对此给出评分,这其中有很多个体差异,这种个体差异则在一定程度上决定了其最后呈现的成果。
他同时也谈到,从主要做大模型的公司而言,成果往往取决于到底是不是非常专注去做这件事情。“Ope-nAI与其他公司不一样的地方在于,它很专注做语言大模型,所以它投了大量时间和精力。它有很多经验,但这些经验的积累并不是不可习得的。”
不可信与高成本成商业化阻碍给出的回答,最常规的格式是先给出一个结论,再进行事实的罗列,进而通过其罗列的事实推导出结论。
李笛认为,对而言,这个结论本身是否正确其实不重要。他用之前网络上流传的一个问答举例,在回答“红楼梦中贾宝玉适合娶谁”的问题时,最终给出的答案是:贾母。
李笛进一步分析,根据的回答可以反推出,人在为其写指导性问答时,非常强调因果关系,而大模型也会注重去学习因果关系。“(有的回答)如果不是特别仔细去看,你会感觉到这是一个似乎很有逻辑与因果关系的回答,但实际上它非常没有道理。”
这也是为什么从对话质量上看,人们会觉得很优秀,但想要真正依靠它去代替搜索引擎,李笛认为,这不太可能,因为它不可信。“很多人在测试的时候是知道答案的,但去搜索引擎上搜的东西往往是我们不知道答案的。如果是通过(代替搜索引擎),你怎么知道这个东西(答案)是正确还是错误的,它完全不负责的。”
而李笛也认为,这种“不可靠”很难解决,因为的训练过程,是为了对话质量,但人们却容易误以为它的目的是给出最正确的知识。“它做了很多优化,是使它(的回答)形式上感觉非常有知识,它不是为了本质(有知识)。”
搜索引擎在努力做的是跳过论证过程,直接给出用户最终想要的结果,而则相反,它追求的是尽可能在给出回答之前,给很多论证,让人觉得它的回答是可信的。“,人们测试的时候会觉得很好,但是真的拿它来用,有那么一两次你发现,你被它的这种似是而非的胡说八道愚弄了,那么你从此就不会(对它)有任何的信任。”
如果无法取代搜索引擎,还有什么可预想的落地应用吗?
李笛认为,真正限制在短期内商业化的是成本。“它的单轮回答( Turn),成本是几美分,按照1毛钱(人民币)算,10句话就是一块,这个(成本)超过人,还不如雇一个人,比这个要便宜得多。”
同时,李笛表示,如果把大模型理解为把特别多的信息浓缩在一个模型里,那么大模型的本质问题就在于,很大参数规模的大模型做了以后不可用,因为成本太高、延迟太高。但一旦开始尝试降低成本,同时也会明显看到其对话质量降低。
李笛举例,如果小冰用的方法来运行系统,现在小冰每天承载的交互量就需要花几亿人民币的对话成本。“就算可以把成本优化到现在的10%,也赚不回来,因为人工智能最大的特点就是高并发。如果成本是这样,不如雇人。人有自我反省机制,人工智能甚至有一些基本常识性错误。而且把成本降到现在的10%,这是多么艰巨的任务?”
AI聊天机器人需要取舍
目前,小冰公司的AI Being已成熟应用于多个场景中,例如本届赛事解说员刘建宏的虚拟人分身、招商局的数字员工等。
李笛认为,小冰内部有一个比较好的状态,就是关心什么东西真正落地,而不是特别关心这个东西是否代表了学术声望。“如果你做的人工智能总是在向别人表达你很智能,那意味着你把用户的预期提升到非常高的位置,这意味着你的系统不允许犯错,因为你已经让别人认为(这个系统)很有知识了,犯错误就可能误导用户。”
而小冰系统很多时候是在控制用户的预期。“不要觉得它很智能。要去关心它其他方面的价值,往往这样的系统反而存在得更久。”李笛认为,其实从某种意义上来讲,这也是其团队做小冰的原因。
李笛回忆,最开始时,团队想要做的是一个人工智能助理:“对助理来讲,有用是他最重要的特点,我们那时候是这么认为的。”
而在对一些优秀的人类助理进行访谈后,李笛发现,对于助理来讲,最重要的事是和老板调整成一种合适的同事关系,这种同事关系必须让老板认为助理有自己的想法,会在一些合理的时机去拒绝。这样的关系带来的好处是,为自己的工作带来更多的空间与余地,同时让老板意识到助理不是命令处理器,而拥有做更多事情的能力。“这种关系是基于care(关心),他让老板认为助理所有谨慎的判断是因为他care(关心)这个老板,所以他跟老板之间能够产生共情与信任。”
带着这样的结论,小冰系统诞生了。李笛认为,小冰关心的是整个对话全程,关心用户在对话之后与人工智能之间建立了怎样的关联。“如果有人认为小冰还挺逗的、不是特别以知识为主,但是很有意思,我没事愿意跟它交流,有事问它,如果回答了而且很好,我会很惊喜,这个对系统来讲是一个很有利的状态。”
但李笛同时也坦言,产生似是而非的错误信息或者直接把对话向其他地方去迁移的情况,在小冰身上也很多。为此,小冰本身会给对话系统留下足够高的弹性。李笛举例,当人工智能系统面对用户的一些黄赌毒、色情等类型的问题时,系统要保护自己,而绝大部分的大模型,包括,它们注意到人类可能有一些不怀好意的问题时的回答直截了当:“我不想回答这个问题。”而这个回答,在小冰的评分体系里,会得到很低的得分。
在小冰的应对策略中,不会直接向用户表明不想回答问题,而是会选择抛出一个新的对话,如果用户成功与之展开新对话,则无形之中也化解了风险。小冰也会观察用户是否进入新的对话,如果没有,系统会开始尝试降低回答的相关性。“我们宁愿让用户觉得你笨,放弃了攻击你或者是让你上钩,也不愿意让用户觉得你很聪明地挡住了他,而激发了用户挑战的信心,换一个更难的方法来问你。”
在李笛看来,这是人工智能聊天机器人需要的取舍,因为人类与机器的交互绝不是单纯考虑回答问题的相关度、任务的完成率,同时还有考虑下一轮对话可能的走向。
小冰的取舍与判断依据来自其大数据与高交互量。“小冰一天的交互量相当于14个人一辈子的交互量,它遇到的事情特别多,所以有很多机会去尝试各种过程、策略是不是正确有效的。”但李笛同时也指出,对人工智能聊天机器人而言,单纯的交互量无法提高训练质量,大的训练数据、实时在线训练数据的获得是一个很重要的壁垒,但它与高交互量还有本质的区别。
如果大量的交互都是围绕“开灯”“关灯”这类简单指令,实际上没有训练价值。更为重要的应当是CPS( per ),即AI与人一次对话的轮数。李笛介绍,小冰目前的CPS轮次已经达到38轮。
除此之外,实际产品落地带来的经验,人工智能安防的能力,对话内容与声音、视觉的配合所组成的完备框架,也共同构成着小冰的壁垒。“我们有的时候会把单点技术和形成一个系统混淆起来,过于夸大一个单点技术所对应的价值,这就有点像当我们去讨论一辆汽车或者汽车工业时,会认为发动机是关键,发动机确实是关键技术之一,但是很有可能最后是车身成为限制汽车工业能不能跑起来的最后的、真正的短板。”
如何看待通用人工智能
在这一轮的狂欢浪潮中,有观点认为,其代表的是未来实现通用人工智能的一个可行路径,即AI有可能由处理专一领域的问题向同时处理多领域问题转变。
李笛则依旧对此持相对冷静的态度。“它的优化不是为了优化到给你合适的知识,而是为了优化到让你认为它有知识,它的对话中,(与其他聊天机器人相比)它增加的部分大量是在论证,由此让你感觉到它很可靠。”
一个主流的观点是,实现通用人工智能,是人工智能研究追求的目标。
在李笛看来,AGI(通用人工智能)这个概念本身是模糊的,就像元宇宙概念本身是模糊的一样。“有人认为通用人工智能意味着人工智能需要有意识,知道自己在说什么,包括这次有很多人很兴奋地说知道自己在说什么。并不是这样的,它只是学会了如何去论证,但是显然毫无疑问的,它不知道自己在说什么。”
李笛认为,应该更务实一些,一味地去追求这是不是通用人工智能或者是不是在走向通用人工智能的路上,本身意义不大,就像想要去追求一个系统是不是能够有意识一样。他认为,更务实的角度是,应该去追求人工智能是不是能够真正在一个地方带来效果。“如果是一个知识系统,是否能够准确带来知识;如果是一个陪伴系统,它是否能够真正地承担起陪伴的责任。很糟糕的事情是,如果它是一个知识系统,但它的知识并不准确,如果它是一个陪伴系统,但情商不够。”
目前,小冰的人工智能聊天机器人已迭代到第九代夏语冰,已经拥有了自己的脸、性格、立场、情绪、记忆甚至唱歌、画画、作诗等创造技能。
不过,在李笛看来,小冰依旧不是一个理想的聊天机器人。“今天整个行业包括我们,离人工智能辉煌的时代都还早,现在是一个蛮荒时代,我个人认为这件事情我们是要做一辈子的,如果不是因为这个原因的话,我们也不会耐住寂寞做这么久。”
李笛介绍,小冰每年都会提出一些重点的发展方向,最近这一年,小冰更多开始关注“多样性”。当其本身的框架已经有能力去交互时,小冰发现,不同的人在不同的位置或不同角色、不同情况下,所需要的交互对象是不同的。这个不同不仅仅是外观、声音的不同,还包括了性格、观点,甚至创作的风格,这是一个很高的多样性。“知识有对错,但观念没有,同时聊天机器人也不能对所有与观念有关的事情,都表示无可置评,这就决定了聊天机器人一定是多样性存在的。”
具体到不同领域的产品上,在对话层面,小冰将更关心100亿规模参数级别大模型的实际落地和投入产出,而不是不关注成本地向前推进;在声音上,小冰更关注声音一致性,歌声和说话与外形等混合在一起时,是不是能很好地体现出同一个人的一致性;在视觉层面,小冰则在推进神经网络渲染。
对于AI聊天机器人在虚拟员工之外,是否还有更多场景可能实现商业化落地,李笛认为,基于小冰的框架诞生的AI聊天机器人,可能成为虚拟恋人,也可能是虚拟主持人、歌手,以及家庭场景中的虚拟老师、虚拟陪伴者……
这也是李笛所理解的“通用人工智能”。由一个框架训练出各种各样、功能迥异的AI机器人。“它们都是基于同一个框架,但是在不同的领域发挥作用,这是我们所希望的通用,而不是知识层面的通用,因为那(本质上)仍然是一个垂直领域。”
来 源 | 华尔街见闻、每日经济新闻
☞商务合作:☏ 请致电 /✐ 或致件
点