作者 | 鲁冬雪
智能对话技术在近几年来取得了惊人的进步,最近爆火的 更是将智能对话推到了至高潮。像 这样的聊天机器人有着广泛的用途,然而想要让其达到真正的智能水平,还有很多挑战需要克服,比如自然语言处理、上下文理解、逻辑推理、情感表达等技术能力都需要进一步迭代。
如今智能对话技术已经发展到什么程度了?当前有什么好的智能对话产品实践经验?智能对话技术的下一步演进将是怎样的?为了得到这些问题的答案,3 月 11 日下午,OPPO 数智在线下举办了主题为《畅谈“智能对话”,共启“交互未来”》的 OGeek 小布沙龙。OPPO 小布助手首席研究员杨振宇博士作为本次沙龙的内容出品人,邀请到了清华大学计算机科学与技术系长聘副教授黄民烈博士、百度 AI 主任研发架构师 & 小度算法团队技术负责人谢剑博士及 OPPO 小布助手算法专家索宏彬博士来到现场进行了硬核的技术干货分享及精彩绝伦的圆桌论坛。
据悉,“OGeek”是由 OPPO 数智工程事业部主办的行业技术沙龙品牌,旨在为技术爱好者搭建一个技术交流和分享的开放平台。沙龙主要围绕“科技为人、以善天下”的品牌使命,聚焦于为智能终端提供安全高效的数据、算力、算法、云服务方面的前沿技术,打造技术互动的行业生态,探索技术在行业应用的实践、突破及未来发展方向。
以下为本次 OGeek 小布沙龙的精华内容整理:
黄民烈:预训练对话大模型深度解读
生成式对话模型的图灵测试逐渐接近人类水平,高质量对话也让人误以为 AI 有意识和人格觉醒。特斯拉和小米均在研发人形机器人,国际上也投入了大笔资金立项,似乎“AI- 人”和谐共融的社会将成为必然。基于以上背景,黄民烈指出,随着硬件成本越来越低、执行部件越来越灵敏,机器人的大脑将显得尤为重要。
黄民烈提到,目前 AI 的发展已经历三个时代:
黄民烈认为,聊天机器人可分为两个分支——“功能型 AI”及“拟人型 AI”。前者可以不停地完成任务和指令,如传统的智能助手、大模型阶段的 ;后者则一般是基于检索的智能机器人、基于生成大模型的 LaMDA 等。
纵观大模型发展历程,由微软研发的 是相对较早的系统,它完全基于 GPT 架构,从 上抽取 147M 对话数据,实现了互信息最大化。谷歌研发的 Meena 系统提出了人工评价体系 SSA,性能显著超越了 。清华 CoAI 小组研发的 CDial-GPT,依托 -0nly 架构,建立了大规模高质量中文开放域对话数据集 LCCC,其人工评测结果优于原始 模型和中文 GPT-2 模型,得到了学术界的认可。
紧接着由 Meta AI 研发的 问世,共包含三代版本:
2021 年初,清华 CoAI 小组研发了 EVA,共有两个版本。其中,EVA1.0 包含 28 亿参数,在 181G WDC- 上训练而成,开源首个十亿级别中文对话模型;EVA2.0 在精细清洗的 60G WDC- 上训练而成,开源多规模版本模型以方便研究者使用。
当我们把目光放到当下的技术产品中,由百度研发的 PLATO 系列模型现已更新至第四代。前两代模型结构相同,参数量均为 1.6B。第三代 PLATO-XL,参数量达到 11B,在连贯性、一致性、信息量、事实性、趣味性上均取得优异表现。第四代 PLATO-K 版本旨在解决开放域对话系统中信息量缺乏和事实不准确的问题,在知识性上有大幅提升。由 研发的 LaMDA 以 -Only 为架构,参数量达到 137B,在 2.81T 的 token 上进行了预训练,能够在合理、趣味、安全的开放域闲聊。引入 (TS),在生成质量、安全性、有根据性上取得明显提升。
去年,清华 CoAI 小组联合聆心智能研发了 OPD。它采用 UniLM 架构,在预训练阶段引入了 Soft 。参数量为 6.3B,具有 70GB 高质量对话数据,兼顾出色的闲聊能力与知识问答能力。
关于如今备受关注的 ,黄民烈提到,它背后的核心技术其实是指令学习和基于人类反馈的强化学习。黄民烈在此总结了 的三个突出特点:
黄民烈指出, 更突出功能属性,强调提高效率、解放生产力,提升创造力。而 AI 和 AI 乌托邦则更关注人格属性,试图满足社交、情感、陪伴、支持等需求。黄民烈将 AI 乌托邦称为 Mini 版的 ,它既可以回答刁钻的问题,还可以让不同角色实现跨时空的对话。对于一个问题, 可能会给出一个比较官方的回复,而 AI 乌托邦则会根据不同的角色性格给出不同的回答。
在本次演讲的最后,黄民烈就对话大模型特点做出了总结:
1. 模型架构、预训练任务趋于统一;
2. 参数规模持续增大,下一代对话预训练模型将普遍进入千亿量级;
3. 数据重要性日益凸显,中等规模、高质量的对话数据将显著提升对话预训练模型的交互能力;
4. 人类在模型训练过程的介入和参与不断增加,模型对人类行为的模仿、与人类偏好和价值取向的对齐不断增强;
5. Tool- 引起关注,检索、记忆、计算等可插拔的外部模块将成为标配;
6. 新的落地应用场景涌现,以 .AI、 为代表的对话模型具有众多潜在的落地应用场景。
谢剑:小度助手的智能化演进技术实践
谢剑认为,智能助手的智能化体验将主要围绕以下几个维度进行进化。首先是“交互自然度”,交互自然度不仅体现在语音交互,更侧重于多模态的交互。现在市场上的语音助手基本是一次唤醒一次交互,这种方式并不够智能。其次是“对话智能度”,即智能对话系统要足够聪明。对于同一个问题,不同的提问方式均能得到准确的回答。从基础满足进阶到拟人智能,有人格化、人像化的形象将会与人产生情感的连接。然后是“感知与影响度”,即实现对物理世界更丰富的感知和更强的影响。
小度助手在这个进化蓝图下,主要围绕自然交互和对话智能展开探索。针对自然交互,谢剑指出,无论是把双工交互引进来,还是把“小度小度”变成“小度”,都是为了使用户和设备之间的交互成本更低。对话智能则侧重于不同技术路线应对不同的对话需求,小度个性化持续自学习的统一对话系统,可以在保护用户隐私的情况下进行用户分析,将满意的部分持续积累,不满意的部分通过样本挖掘产生正确的标签,实现系统的自学习。
从工业界的视野来看,谢剑认为对话理解正面临着三个挑战——大规模持续增长的理解体系、语音识别错误和口语化问题的鲁棒性挑战、需要满足不同用户的个性化需求。为此小度助手进行了对话理解层面、对话引导层面的技术迭代。
在对话理解层面,建立大规模个性化多轮对话需求追踪模型。将 NLP 与推荐技术交叉融合,针对用户的需求空间做整体建模,如此便绕开了文本出错的问题。同时,应用个性化和上下文信息融合的注意力网路,进而实现全空间可比的连续概率变化追踪。该模型的端到端纠错和 NLU 能力、上下文理解能力、垂类知识能力以及个性化纠错与消歧能力非常强悍,其中“个性化纠错与消歧能力”尤为突出。
在对话引导层面,谢剑强调智能的对话体验应是:知之为知之,不知为不知,即智能助手一定要知道自己有不知道的边界。通俗来讲,用户与小度聊天,当聊到它没听清或听不懂的问题时,它能够知道自己不知道,而不是答非所问。于是,小度团队构建了深度满意度模型——离线时基于下文 Act 的序列行为判别模型,在线时基于离线模型样本,预判最佳结果是否满足用户。
面对 的成功,谢剑将其背后的强大能力拆解为三个维度,分别是对话交互维度、NLP 全任务能力维度以及泛化能力维度。谢剑认为, 最大的亮点是语言智能统一范式的飞跃,在此之前整个学术界也一直在探索。
而以 为代表的大规模语言模型的新技术范式对智能助手技术的演进的影响,让谢剑产生了一些反思:
关于“ 能否代替语音助手”这个问题,谢剑的答案是“不能直接完全替换,但是基于 LLM 的新技术范式升级能够带来革命性的体验”。具体而言, 本身的满足方式还是文本信息,无法直接连接数字世界的服务和 API,比如订闹钟、播放音乐等,而这些都是已有助手需要解决的问题,同时还存在事实性的问答错误以及时效性信息的更新问题,因此无法直接替换。
然而以 为代表的 LLM 拥有极强的语言推理、总结和生成能力,以 LLM 作为大脑,结合外部工具的调用(包括搜索、服务 API 等)既能够满足现在用户对于语音助手的需求,还能够满足和激发原本满足不好的需求(内容生成、复杂长文本理解等)。
小度助手结合 LLM 新技术范式的升级会朝着 Chain of and Act 方向去进化,用户的需求来了之后首先进行推理,思考需要调用和应用外部的什么服务和工具(比如 搜索、音乐播放服务、视频等),而后基于外部服务和工具的内容返回继续推理,看看是否能够满足用户的需求,在能够满足和不能满足的情况下自主的去生成更合适的内容返回给用户,这种”推理 – 执行 – 推理”链能够大幅的增强 LLM 的能力,进而满足用户对助手的各种需求。
当然这种技术和融合也有很多的挑战,包括成本的挑战、生成式大模型的安全挑战等等,另外在拥有 LLM 大模型的强大能力的同时还需要能够保持原本助手的个性化、自学习等特征,在这些关键问题下,小度团队也在紧锣密鼓的开展研究中。
索宏彬:OPPO 小布语音交互技术实践
小布助手是一个多模态、多终端、对话式的智能助手,以“机智”“有用”“温暖”为产品理念,致力于提供多场景、智慧有度的用户体验。
人机语音交互是基于语音输入的一种交互模式,即通过说话就可以得到反馈结果。语音助手则是一款智能型的应用程序,人机之间通过语音进行对话与问答。它的终极目标是全领域通过图灵测试,通俗说就是“能听”“会说”“懂你”。
小布助手的“语音”在落地阶段最重要的工作共有两项:
即便小布助手链路已经构建得相当完整,但使用过程中仍然存在着许多问题。其中,索宏彬认为低功耗信号处理的主要挑战是非平稳噪声、高回放音和空间混响。目前的解决方案是单、双麦降噪,传统信号处理方法与神经网络方法并行,当前小布助手已完成立体声 AEC 算法仿真初版,在最大音量下,MIC1 回声抑制收益可超过 10dB。未来小布助手研发团队将聚焦多场景的 AEC 算法适配,布局远场交互的 Mic 阵列技术,为 OPPO 更多产品形态做好准备。
面对当前行业里“语音唤醒”功能实现中存在的“低功耗”、“高噪声场景下如何保持高水位的唤醒率同时抑制误唤醒率”技术难题,小布完成了唤醒底层算法的开发,从 0 到 1 构建了芯、端、云三级 (DSP/AP/Cloud) 唤醒方案。
关于声纹应用,为了应对人噪干扰、多人交谈、跨信道、短时交互的场景挑战,OPPO 小布研发团队基于 框架,选型了 算法框架及综合性解决方案算法框架 ECAPA-TDNN,并且基于距离度量的无监督聚类技术,进行数据自动化清洗。
在目标语音增强方面,小布助手团队尝试了基于声纹模板更新的主讲人话音检测算法(TSVAD),尝试通过主讲人语音注册环节,对模板进行更新,提升主讲人语音分离模型在实际场景使用时的鲁棒性能,提升后端语音识别准确率;
在自定义 TTS 方面,传统的声音自定义技术方案,录入时间长,效率低。同时,小布助手的用户群体背景及使用场景复杂,因此在复杂的环境和海量数据情况下,如何挑选满足条件的音频作为训练数据成为了一个巨大的挑战。于是小布助手研发团队自研了“纯语音 VAD”与“语音语义深度结合 VAD”的解决方案,同时应用了“预训练 + 在线自适应”的技术方案。
在歌声合成方面,面对“低资源歌声合成”、“跨风格歌声合成”、“跨语言歌声合成”、“个性化歌声合成”的需求,小布助手研发团队提出了两个技术优化方案:
智能对话技术的“下半场”在哪?
在本次 OGeek 小布沙龙的最后,杨振宇与黄民烈、谢剑、索宏彬一起围绕“智能对话技术的‘下半场’在哪?”这一主题展开了圆桌论坛。几位博士均表示,爆火的 给智能对话领域带来了深远的意义和影响。黄民烈认为, 最大的意义是让所有公众意识到了 AI 的能力以及 AI 能够突破传统认知上的局限”;谢剑和索宏彬都提到了“人机共生”的理念,他们表示 的出现将启发人们思考,在未来的工作场景中如何实现人机共生。
当提到智能对话等人工交互领域最有前景的方向时,来自学术界和工业界的博士们分别给出了不同的答案,黄民烈认为未来将是千人千面的;谢剑在个性化助手的方向基础上,抛出了“增强语言模型”的观点,让 LLM 结合外部的各种信息和工具来大幅提升 LLM 的能力;索宏彬则认为,从交互模态上看,input 会变得更加丰富。四位博士完美地勾勒出了智能对话技术的美好未来。通过他们的分享,我们可以预见,智能对话与人机交互在未来一定会给我们带来更多的惊喜。
就像出品人杨振宇说的那样,“即使有像 这样的新技术出现,挑战也仍然存在,包括内容安全与 AI 伦理、长时记忆与个性化、共情能力与拟人化、反馈驱动与自学习。但机遇与挑战并存,随着技术的快速迭代,智能对话领域正在迎来最好的时代。”
值得一提的是,在本次 OGeek 小布沙龙中,杨振宇还宣布了“2023 年中国高校计算机大赛智能交互创新赛”启动事宜,呼吁全球高校在校生参与到本届大赛中。据悉,该大赛是由教育部四大教指委创办,由浙江大学与 OPPO 公司联合承办,旨在提升学生在新一代人机交互方向的技术、场景创新能力,积极探索“科技为人”的智能交互技术,给未来人类生活提供全新的产品及服务体验。希望通过竞赛的形式培育产学研融合的 AI 人才生态体系,共同促进人机物三元融合产业的发展和革新,全面推进 AI 技术的发展。
附:圆桌论坛环节精彩整理
问题 1(杨振宇):关于智能对话技术的研究与探索,目前学术界和工业界的侧重点分别是什么?
黄民烈:学术界现在的趋势是以神经网络模型为主,工业界的趋势则是朝 的方向持续狂奔。从学术界角度来讲,由于资源受限,无法支撑太多大规模的模型和试验。整个学术界的研究方式正在与工业界的方式趋同和对齐,很多有影响力的论文都是由名校和大厂共同产出的。
学术界当下需要考虑如何学习外界工具方法来解决自身研究的问题。工业界数据是最好的方法,但学术界也需要用有原则性的方法突破它。比如乌托邦个性化对话平台的很多行为要靠数据解决,里面也有很关键的算法,这时既要考虑算法在原理层面是否合适,同时也要注意规避算法短时间内难以克服的缺陷。
谢剑:不单是智能对话,我们可以思考任何计算机领域包括科学领域,学术界和工业界的侧重点是什么。个人看来,学术界侧重突破新的可能。比如不考虑任何成本,智能最终极限将是什么样的。工业界则侧重于解决问题,他们更看重“捅破天花板”的技术最终能应用于哪些场景以解决用户的需求。近年,工业界产品的用户体量很大,也需要再往前走一走。刚刚黄老师提到,现在许多大厂和高校之间都有合作。那么工业界也将与学术届合作,一起捅破“天花板”。
索宏彬:目前,OPPO 小布也在和学校进行合作,该项目的出发点主要围绕两个方向,一是跨领域、多模态领域,涉及语音、图像以及语义结合,可以看出学术界在这些领域是比较关注的。第二个是问题驱动,这其中包括很多技术挑战点,高校工作也比较关注。回到本质上,目前智能助手业务应用上,跟高校的合作还是主要围绕用户体验、围绕问题驱动。
问题 2(杨振宇):当前 B 端企业和 C 端用户对于“智能对话”产品的核心需求分别有哪些?
谢剑:2B 最后也是 2C,最终都是要满足用户的需求,当然它们也会各有侧重。2B 的客户往往是开发者,他们看重是否具有泛化能力,能否降低开发者成本。2C 的大部分用户不是开发者,他们希望交互一次就能满足需求。所以,从智能对话上来讲,这可能是比较明显看到的区别。也许,新的时代 2B 和 2C 会模糊掉。如果开发者用很简单的自然语言就能开发,就意味着人人都能成为开发者,中文也能变成世界上最强的编程语言之一。所以,2B 和 2C 的模糊,一定程度上也能带动整个社会生态的蓬勃发展。
索宏彬:小布的产品定位正在发生变化,尤其在备受热议的 出来之后,小布的目标是朝着“有用”的方向走。原来的小布侧重于“有趣”,现在则在向“有用”的方向走,这是很典型的一个变化。
黄民烈:我理解人类有两类基本需求,一类是信息需求,一类是情感需求。信息需求本质上是做事情,怎么把它完成的更好。情感需求本质是要消磨时光,有情感的寄托,有情绪上、心理上的支持和疏导。所以,我们希望今天的助手能和人产生更强的连接,有情感的、社会的、信任的关系,不仅要完成信息类的任务,还要完成情感类的任务。从人类两大需求角度来看,无论是信息的还是情感的,最终都将融到一起,尤其现在技术发展越来越快,势必会产生很多新的应用场景。随着技术的成熟和变革,一定会有新的拐点和机会到来,这也是我们现在想试着做 AGI 的重要驱动点。
杨振宇:无论是 2B 还是 2C,都要考虑到底最终为用户希望发挥的价值是什么,以及在此之上给用户提供的体验是怎么样的。2C 与 2B 的核心需求侧重点目前虽然稍微有点不同,但本身都还在演进、融合的过程中。
问题 3(杨振宇):目前智能对话领域最大的“技术挑战”是什么?如何应对这个挑战?
索宏彬:大家在演讲过程中提了很多挑战,如果选一个最大的,那就是“自然”,不是 AGI 的,而是更往上走,真的达到拟人化或者跟人产生情感连接。实现无负担的交互。
谢剑:挑战很多,如果说最大的我个人觉得是如何做到 All in one,我怎么说都行,怎么说它都能搞定,背后一定程度上隐隐朝向 AGI 的挑战。其他的新场景泛化,信息需求和情感需求都能满足,本质都是需要 All in one。现在发现预训练的大模型能够把它整合,但依然还有很多问题,目标是希望能够 All in one 用一个大脑,这是我理解最大的挑战。
黄民烈:最大的挑战是如何实现 Human-like 。从现在看,我们已经接近类人的对话能力,但有些应用场景仍存在差距,比如多模态的信息、上下文理解等,尤其是如何连接到外部世界和知识,以及外部背景信息。总体来讲还是挺难的,AGI 有很长的路要走。
杨振宇:针对这个问题也分享一下我的想法,非常赞同今天各位专家提到的未来大模型用的越来越广泛的时候,怎么解决安全性的问题,怎么解决 AI 伦理的问题,特别是直接面向 to C 用户生成内容的时候。当讨论未来最大挑战的时候,多样性还蛮强的,在场各位专家完全不用担心未来没高价值工作可以做了,挑战还有很多。
问题 4(杨振宇):未来 XR 等新硬件设备的发展,将对智能对话领域产生怎样的影响?
黄民烈:现在技术发展很快,很多东西不太能够预测。我想未来电子宠物或者电子陪伴类的产品也许会卖的很好,因为它们能满足用户的情感需求。
杨振宇:大家在猜想 XR 设备会不会有下一个爆品,如果它发展起来,会不会对智能对话的领域有很大的影响。
黄民烈:前提是一定要脱离对设备本身的强依赖。如果设备本身的使用门槛或者使用场景不够自然,门槛很高,也许未来在手机装一个超级 APP 类似于 的时候,可能就会很好。
索宏彬:XR 拓宽更多的交互模态,是增强人机交互的一种手段。
谢剑:人们所需要的最理想的助手,终极形态一定是多模态的助手形态。XR 有虚拟增强的设备,设备本身在拓宽 input 和 的模块。音箱是一个节点,从没屏幕变到有屏幕了,从只能听、能说,到后面有摄像头、能看、会说,再往后能不能有更虚拟的现实增强。回到智能助手,如果 XR 设备发展成熟了,多模态的助手就有了很好的承载设备,语言的理解就要还原到物理真实环境里,交互的各个方面都会有新的挑战。我相信新的技术挑战会带来新的技术机遇。
问题 5(杨振宇):随着技术发展,大家觉得未来理想的人机交互形态会是什么样的?在交互形态里,智能对话会扮演什么样的角色?
索宏彬:我比较认同当前类似 XR 的模式,即往多模态方向走,未来交互形态一定是自然表达,类比“人人”交互。
黄民烈:理想的一定是“情景式”的,有很多的交互场景。比如在车里,假设有一个人可以很好的与之交流,并且车内的场景交互一定是多模态的,有很多摄像头监测到肢体的状态等。其次是有很高的智能水平,可以自主也可以被动,智能到感知用户的全面状态,根据状态做出最有利于用户的决策。一定要具备综合决策能力,在特定场景下可以主动,大部分情况被动。
谢剑:关于理想态,我认为第一点是“个性化”。每个人在不同场景下都具有一个满足该场景需求的助手,或者每个人有一个“个性化助手”,它能在不同场景下扮演不同的能力和满足需求的形态。第二,未来的助手应满足市场供给。市场上有很多律师、作家、卖手等等,相信未来各个领域都会有助手。原本找律师的咨询费是比较贵的,而一些基本问题就可以咨询价格更实惠的智能助手。因此理想的形态,一是能满足个性化情景需求,二是市场上应该会有公共的产生知识供给的助手。
问题 6(杨振宇):现在 的热度很高,它对智能对话将会产生哪些深远的影响?
黄民烈:我认为 最大的意义是让所有公众意识到了 AI 的能力以及 AI 能够突破传统认知上的局限。每个行业、每个人都开始思考应该如何和 AI 相处,这是它最大的意义。 给我们带来的仍然是想象的空间,在当前的时代和节点下,大模型能够带给我们什么想象空间,过去不敢想的事情,是不是今天能够去想、能够去做,这个意义是比较重大的。为什么说是 AI 里程碑,因为它比过去所有事情带来的冲击都要更大。
谢剑:影响还是很大的,我们可以分类来看。针对普通用户,他们要思考在未来的工作场景中如何实现人机共生,只有拥抱人机共生才能做 AI 之上的人。很多人会比较悲观,但其实人不可能被工具杀死,人加上工具自然会超过工具。对于 NLP 和从业工程师来说影响也是巨大的,不管在工业界还是在学术界都是如此。影响巨大的原因是,原本从 AI 技术来看,大家认知 NLP 是皇冠上的明珠,突然间发现 All in one 做任务并不差,甚至效果更好,这对从业工程师的挑战还蛮大的。学术界有很多做某个单点方向的,此时就要寻找新的方式参与进去。
索宏彬:谢老师提到了 AI 共生的理念,我非常认同。不知道大家有没有用到 Bing 和 的结合版,Bing 的效率非常高。Bert、 等大模型的演进路线,给很多 AI 从业者提供了新的方向,带来一定冲击的同时也增强了大家的信心。大家会沿着这条路做更多的探索,有挑战、有危机,同时也有机遇、有机会。
问题 7(杨振宇):在未来 2~3 年,您觉得智能对话等人工交互领域最有前景的方向是什么?
黄民烈:我认为最有前景的方向还是“个性化”,未来肯定是千人千面的。无论是教育场景,还是金融服务场景,每个用户对不同类型机器了解的方式是不一样的,从这个层面来看个性化是最大的商业价值点。
谢剑:我补充一个点,”增强语言模型”,以大语言模型为大脑,利用其强大的常识、推理等语言能力,结合和借助外部的信息、知识以及工具,来增强大语言模型,实现能够推理、执行动作再推理等反复的思考 – 动作链,通过这种方式能够更好的实现广泛场景的落地。
索宏彬:个人认为从交互模态上,input 会变得更加丰富。其次是表达侧的表现,生成式人工智能是当下特别炙手可热的技术点,我们也在做一些探索和尝试。
杨振宇:我个人的期待是,未来的助手是可进化的,是越来越聪明的。通过进化实现个性化和知识增强,对外界知识有更强的理解。如果能实现可进化,一定会有更好的前景。