对于通信行业的朋友们来说,全双工(Full )并不是一个陌生的词汇。大约100年前,「Full 」这个词已经被明确定义,并被广泛运用于通信领域。
不同于半双工通信(例如对讲机)那样交替地进行发言,在全双工通信中,可实时地进行双向语音传输,在我们日常生活中最常见的应用,就是电话。在AI语音应用领域,全双工通信可以让AI实时预测人类即将说出的内容,实时生成回应并控制对话节奏,类似于面对面的对话,让人与AI进行更为流畅自然的长程语音交互。
随着科技的不断演进与创新,在AI语音大放异彩的智能时代,我们迎来了新的问题与挑战:在AI外呼领域,「全双工连续对话」能给用户带来怎样的体验?对于企业或者政府来说,应用了全双工的AI语音机器人,传统的语音客服相比有何提升?从技术层面来说,AI语音机器人的全双工连续对话又是如何实现的?
百应科技作为对话式AI应用领域的创领者,通过全双工连续对话技术的应用,让AI语音机器人实现听说状态的实时切换,更主动地与用户进行对话交互,结合多模态识别和响应、情感化的交流和表达,使人机对话更加贴近真实的人际沟通,助力企业与政府构建长期用户信任关系。
更会思考、更像真人、更懂用户 四大关键技术护航AI对话全过程
如果说「对话式AI」是一道命题作文,那么「对话」就是它的题眼。在我们看来,想要让AI语音机器人在对话过程更自然流畅,能听会说、自然交互、有问必答是必不可少的关键词。
简而言之,就是更「像人」,更像人与人的交流,而不是人与机器的指令交互。
但是,市面上许多AI语音机器人面对用户,却只「机器」而不「智能」。
举个例子,有一次我接到了某品牌AI语音机器人的外呼电话,开场白无论从情感还是音质都十分优秀,一度让我以为是真人,但是等我开口,对方就原形毕露:
你看,没有全双工能力的AI语音机器人,仅能在已有的话术库进行检索,执行被动回答用户问题的单一功能,也无法在播放回答时即时响应用户最新插入的问题,更不会主动探索用户想法,容易让用户产生烦躁与排斥感,甚至拉低整个品牌的形象。
因此,在电话触达这个能与用户近距离「亲密接触」的优质场景,百应AI语音机器人不止步于单纯被动地与用户一问一答,而是通过全双工技术的应用,实现更高级别的双向语音交互和对话能力,以而达到宣传触达和营销转化的目的。
当接收到声音信息后,AI会自动进行声音检测,若判定为有效的语音输入,则会开始语音识别(ASR)、语义理解(NLP),确定当前的对话场景与用户意图,并将回答进行语音合成(TTS),与用户进行对话;若在播放回答中途用户插入提问,则AI会停止播放,转为接收模式继续对用户意图进行识别,根据用户最新输入内容展开反馈。
在实际进行AI外呼的过程中,场景总是五花八门,这就对对话式AI的灵活应变能力提出了很大的挑战。基于全双工对话的使用场景,百应科技应用了实时预测、语音增强、智能打断、角色切换等功能,让人机对话更接近真人聊天,用户体验更「丝滑」:
实时预测,边听边想
基于语言预测的平行处理机制,百应AI语音机器人能够「边听边想」,在一句话听完整之前,就会根据已有前缀进行语言预测,并随着用户说话不断修正给出最终结果,让AI回答得更快,让交流更加顺畅。
语音增强,无效拒识
在外呼场景中,由于通话环境无法控制,语音增强功能可以基于降噪、声音增强、角色分离等方式,改善语音信号的质量和可理解性,并对无效语音进行拒识过滤,以降低环境噪声对语音识别的干扰,帮助识别系统更好地理解和解析用户。
智能打断,把控节奏
在人与人的对话中,人们往往会在对方讲话期间提出问题、进行追问或表达自己的意见。智能打断功能可以模拟真实对话中的中断和交叉发言,减少对话的冗长和重复,并通过内容池的调度系统判定当前输出内容的优先级,实现智能对话流程控制。
听说角色,无缝切换
通过全双工技术的应用,百应AI语音机器人能够实现听说状态实时切换。当用户需要表达自己的需求、意见或问题时,AI语音机器人可以切换到倾听者的角色,聆听用户的反馈和要求;反之,当AI语音机器人需要提供信息、回答问题或提供建议时,可以切换到说话者的角色,主动提供相应的内容。
在全双工场景下,AI语音机器人在通话过程中,会实时不断地把语音上传系统,对系统的效率有很高的要求,需要有高效的通信协议,同时能支持多模态的输入和异步的处理。百应通过和软件的部署,构建了强大的实时通信基础设施,支持呼叫控制、路由、交互式语音应答和多媒体通信,是保障外呼服务的功能和稳定性、灵活性的坚实后盾。
「销冠」和「客服」都是TA 全双工连续对话让AI更全能
用AI打一通电话,我们的目的是什么?
对于企业来说,可能是希望老用户回流、私域加粉、用户调研等等;对于政府机构来说,可能就是对居民完成政策宣贯、反诈科普之余,引导居民加微方便后续管理。
这两者的目的都可以概括为同一个:邀约。
这就需要我们的AI语音机器人在任务执行时,更倾向于进行「主动对话」( )而非「被动回答」,我们希望AI在对话过程中,不仅能正确地回答问题,也能和用户更好地交互下去。
举个例子来说,用户问 AI「你们这个活动一直持续到周末吗?」,AI 如果只能回答「是的」,对话就容易陷入沉默和尴尬,如果AI可以反问用户「需要我把地址定位发到您手机上吗?」,再根据用户的回答继续展开对话,相当于AI掌握了对话的主动权。
在实践过程中,我们会在对话开始前先设定预期目标,并相应地制定一系列策略。以终为始,此时AI语音机器人是个能主动对话引导节奏、实现邀约目的的「销冠」。它从开场就进行主动破冰,用符合目标人群实际需求的优质话术与用户进行互动,在对话过程中分析、识别用户意图,进行积极反馈与响应,并根据预设对话策略,适时抛出利益点引导用户,以实现外呼目的。
在被动回答用户问题时,AI语音机器人也能无缝切换成资深「客服」。通过对知识库的建立与应用,辅以优质的阅读理解能力,它能够对用户的问题进行精准高效的解答,对用户提问的目的进行分析,根据分析结果选择不同话术,适时重新掌握主动权展开对话,进一步引导用户实现预设目标。
国际标准落地,助推行业发展 让AI成为每一个人的「好朋友」
2023年5月,我国首个国际、国内同步推进的智能语音交互标准ISO/IEC 24661:2023《信息技术 全双工语音交互用户界面》正式发布,标志着全双工技术在智能语音交互领域的应用实力和产业发展迈上了新的台阶。随着行业不断标准化与规范化,全双工技术在AI语音机器人的深度应用将带来更高质量、更智能化和更个性化的语音交互体验。
想象一下,当我们接到一通AI语音机器人打来的电话,却可以像朋友一样随意聊天、自然对话,能够真正理解你所关心的重点……未来,百应科技将继续发挥自身优势,深耕技术创新,不断丰富对话式AI的产品形态,探索更多、更宽广的应用场景,以技术创新推动产业进步与社会经济的高质量发展,推动AI成为政府及企业的「好帮手」、用户的「好朋友」。