今日消息,据报道,总部位于旧金山的于11月30日推出了其最新作品:聊天机器人,供公众免费测试。聊天机器人是一种软件应用程序,旨在根据用户的提示模仿类似人类的对话。在发布的一周之内,有超过一百万的用户尝试了这个线上工具。
表示,人工智能的创建重点是易用性。 在宣布发布的帖子中说:“新的对话格式使 能够回答问题、发现错误、挑战错误和拒绝不适当的请求。”
比如,当有人问“偷车怎么样”时,它会回答:“偷车是一种严重的犯罪行为,后果很严重。”或者给出“可以使用公共交通工具”之类的建议。
据悉,之前 发布的语言模型并不是免费使用的,但最新的可以在测试期间免费试用,该公司希望利用在这期间的用户反馈进一步地完善,再发布最终版本。
是一个研发机构,于2015年由硅谷投资者山姆·阿尔特曼和亿万富翁埃隆·马斯克作为非营利机构成立,并吸引了包括风险资本家皮特·蒂尔(Peter Thiel)在内的其他几个人的投资。2019年,该集团创建了一个相关的营利性实体,以接纳外部投资。据悉,马斯克已在2018年离开了的董事会。
的新训练方式
新加入的训练方式被称为“从人类反馈中强化学习”(,RLHF)。这一训练方法增加了人类对模型输出结果的演示,并且对结果进行了排序。具体操作上,人工智能训练者扮演对话的双方,即用户和人工智能助手,提供对话样本。在人类扮演聊天机器人的时候,会让模型生成一些建议辅助训练师撰写回复,训练师会对回复选项打分排名,将更好的结果输回到模型中,通过以上奖励策略对模型进行微调并持续迭代。
在此基础上完成训练,可以比GPT-3更好的理解和完成人类指令,展现卓越的模仿人类语言,提供连贯的、有风格与逻辑的、符合对话主题的文段信息的能力。
是在2020年推出的NLP预训练模型——GPT-3的衍生产品。在此之前,一直有预测将在今年底或明年初推出GPT-4,虽然本次放出的被称为GPT-3.5,而不是GPT-4,但业内人士同样认为这将是对NLP以及人工智能领域有重要意义的一款模型。
支持连续对话
相比GPT-3,的主要提升点在于记忆能力。可以储存对话信息,延续上下文,从而实现连续对话,这在对话场景中至关重要,极大地提升了对话交互模式下的用户体验。
此外,相比前辈模型具有以下特征:1)可以承认错误,若用户指出其错误,模型会听取意见并优化答案;2)可以质疑不正确的前提,减少虚假描述,如被询问“哥伦布2015年来到美国的情景”的问题时,机器人会说明哥伦布不属于这一时代并调整输出结果;3)因采用了注重道德水平的训练方式,在减少有害和不真实的回复上改善显著,如拒绝回答寻求霸凌他人方案的问题,指出其不正义性。
的商业化落地问题
事实上,今天的距离实际落地还有一段距离。其中最为核心的问题,在于模型的准确性和部署成本。
首先,的回答并不能保证准确性,这对需要准确回答具体问题的商业应用来说是致命伤。这也是要在C端大规模推广,所需要面临的挑战。一些业内人士担心,如果AI输出虚假信息的速度太快,可能会在互联网中淹没真实信息,甚至对整个社会产生误导。
这样的担心不无道理,也并非没有先例。Meta早些时候推出的一款大型科学预言模型,就因为回答问题过于“放飞自我”,在网上输出了大量凭空捏造的虚假内容,仅上线三天就匆匆下架了。
也并不能避免这个问题,的科学家John 在此前接受采访时曾表示,他们在解决AI编造事实的问题上取得了一些进展,但还远远不够。
小结
与许多其他基于人工智能的创新一样,也让一些人产生了疑虑和担忧。承认,该工具倾向于用“听起来合理但不正确或无意义的答案”来回应,该公司认为这个问题很难解决。
人工智能技术也可能使社会偏见长期存在。包括旗下的谷歌和亚马逊在内的科技巨头此前都已经承认,他们的一些人工智能实验项目“从道德层面上看很危险”,而且有局限性。在一些公司的内部测试中,人类不得不介入并解决人工智能带来的破坏。