ai声音模拟软件极限元推出AI虚拟人互动,实时变声技术显硬核实力

默认分类1年前 (2024)发布 admin

66 0 0

堵车了么？别急，志玲为你解忧……..

前方有违章摄像，赶着照相就别在这了，忒贵……..

AI已经渗透到生活中的方方面面，正在悄然的改变我们的生活。

人机交互是虚拟现实的核心技术之一，对推进虚拟现实广泛应用和提高用户的体验具有重要意义。极限元对此推出了针对泛娱乐整体解决方案。

1、AI虚拟主播解决方案

极限元AI虚拟主播基于少量的音视频数据即可快速生成主播形象，输入文本就可以生成具备同步口型、丰富面部表情及各类型动作的AI合成主播播报的音视频，结合语音识别、语义理解、语音合成、虚拟形象驱动等AI核心技术，通过手机APP、大屏一体机等终端展现形式，实现用户与虚拟客服之间的“面对面”互动交流、业务咨询、智能问答、服务导览。（下图虚拟人形象来自相芯科技）

▼ 方案构成 ▼

➤ 虚拟形象

支持卡通、真人虚拟形象，可半身、全身形象播报。

➤ 快捷定制、实时合成

自主研发的语音合成技术，可为形象定制专属音库，快速将文本内容转换成虚拟主播视频，实时播报。

➤ 表情、动作生成

实时处理面部口唇动作，真实自然生动。

通过语音内容驱动模型头部动作及身体动作。

➤ 多语言播报

支持中文、英文、粤语等多种语言播报。

➤ AI系统生成

虚拟主播系统，支持音频、视频实时快速导出，满足各种场景的内容自动化生产。

2、实时变声解决方案

实时变声技术可以通过提取原声语音中的内容信息，包括原声的节奏和情感，再结合特定人的音色进行转换结合，可以惟妙惟肖地复刻模仿特定人的声音，这种基于音色与内容分离的声音转换技术，实现了声音的，对用户本身的音色没有任何限制。

极限元推出了语音实时变声技术，是智能语音方面新的突破，语音变声不仅能实现说话人音色的逼真转换，而且还能将说话人的语速、停顿等韵律、情感、言语方式在所指定的人物角色逼真体现出来，在不同人的声音中切换自如实现自然的变声效果。

▼ 可实现以下功能 ▼

➤音色个性化定制：根据客户场景，灵活定制各类变声音色

➤多场景变声服务：针对变声需求，提供语音实时变声、非实时变声，灵活满足不同场景

➤高性能服务保障：语音公有云，提供高并发的云服务支撑

➤专属私有化部署：针对网络环境、安全保密性等特殊要求，提供客户专属的变声私有云部署

➤稳定技术接口：满足多种产品端接入需求，提供稳定技术接口，可灵活定制

如：不同角色变声为“太乙真人”

声音皮肤：不同角色的音色+动画角色的风格

如上图所示，比如在少儿教育有声读物制作领域，将儿童故事读物跟变声结合，例如将xxx故事书以太乙真人憨厚有趣的声音表现，只需要结合变声技术，就可以将故事书以太乙真人的口吻读出来，增强趣味性，激发学习欲望。

在直播领域，有些主播的声音存在不符合自身形象或者普通话不标准、带口音等问题，通过变声技术，可以把直播的音色变成有品质的音色，同时保留主播自身的语言风格特色。

极限元的该项技术除了提供云端在线服务，也已经可以集成到芯片设备中，实现本地化变声能力，在虚拟IP、游戏直播、专业客服、声音美化等领域有着丰富的应用空间。极限元语音变声能满足客户多种应用场景下实现趣味语音，让语音交互体验更加丰富。

3、说话人自适应解决方案

极限元说话人自适应解决方案在性能上发音更清晰，音色更逼真，韵律更自然，用户仅需数分钟左右即可完成录制，大幅度降低了合成音库定制门槛，全自动化处理与训练，即可拥有接近原声声音的个性化定制模型，快捷实现文本转语音功能，实现高度音色还原度、个性化。广泛应用到智能硬件、语音导航、机器人陪伴、有声读物等领域。

▼ 自适应合成流程 ▼

1.数据自动采集标注，运用asr对录音进行标注与检查，判断数据质量；

2.说话人特征空间建模及声学模型自适应，定制个性化模型；

3.神经网络声码器自适应；

4.模型训练完成的自动判断与评估；

▼ 具有以下优势 ▼

极限元孵化于中国科学院，截止目前已与腾讯、360、搜狗、汉王、陌陌、快手、中国移动、网信办等国内外企业、政府职能部门建立合作，累计服务项目数百项，涵盖公共安全、教育、娱乐、金融、医疗、智能硬件等领域；随着 AIOT 与 5G 的不断融合，语音作为人机交互的基础，我们可能将更多的技术融入相应的设备里，形成多元化的产品体系。增加个性化定制的交互场景，实现“千人千面”的体验。也将语音变声、AI合成主播技术、说话人自适应等与行业结合，运用到媒体、教育、内容制作、旅游等场景，将会带来更大的价值想象空间。