ai写稿软件人类对AI最质朴的期待，是让机器帮人类做一些事情

默认分类1年前 (2024)发布 admin

1,553 0 0

科大讯飞要建一座声音博物馆，复刻你的声音

如果你使用过高德地图导航，那你一定听到过林志玲或者郭德纲的声音，也可能畅想过那些声音的来源。但你也会发现，任路况千变万化，任你“怒路症”发作千百遍，志玲姐姐的声音永远温柔如水，即时你走错了路，她也不急不躁。

事实上，地图导航语音包里的声音，确实是明星名人的声音，但也不完全是他们本人的声音。因为这些声音并不是逐字逐句提前录好的，而是机器合成的。在经过专业的录制、采集之后，再进行后期的声音规整、标注等步骤，制作明星个人音库，最终形成我们听到的声音。

它背后是一家人工智能公司——科大讯飞。智能语音技术及产业一直是国内外竞相竞争的热点，但是在2000年之前，中文语音产业是由国外的公司把控的。成立于1999年的科大讯飞，始终致力于探索“中国自己的语音智能产业”。目前，科大讯飞已在语音识别、语音合成等技术领域取得了突出的成就。

语音识别，即让机器听懂人类的语言，“听得懂人说话”；语音合成则是让机器开口说话。

明星语音导航的底层技术支撑就是语音合成技术，又叫文语转换技术，即Text to （TTS），涉及声学、语音学、数字信号处理、计算机科学等多个学科技术，这项技术主要解决的问题是将文字信息转化为可听的声音。

这项技术在国内的应用已经非常广泛。在一些听书、阅读软件，以及普通的办公软件里，都可以见到它的身影。但我们一般听到的，要么是经过特殊处理制作的明星名人声音，要么就是非常机械化的声音。以微信读书APP为例，当我们选择语音朗读，便只能在“普通女声”、“普通男声”、“情感男声”等为数不多的几种机械声音中选择。在WPS APP中，也同样只有为数不多的几种声音选择。

但科大讯飞想要实现的是，让普通人也能留下自己的声音，可以用自己的声音听到任意文本。

科大讯飞近期上线了一款小程序讯飞留声Lite，“只需十段话，即可永久留下你的声音”。用户只需读完十段文本，即可复刻自己的声音。待声音制作成功之后，即可在声音应用模块选择用自己的声音播放内容，而且能将任意文本转换为用户自己的声音，还可以制成海报分享到朋友圈。

ai写稿软件人类对AI最质朴的期待，是让机器帮人类做一些事情

讯飞留声小程序声音应用页面截图

科大讯飞以往的业务，大都是to B的以及面向政府层面的。这一回，科大讯飞想让普通人也能轻松用上“黑科技”。复刻亲人、朋友的声音，让忙碌的父母用自己的声音为孩子讲故事，让远在异国他乡的游子用自己的声音为父母读书读报，在车载导航系统里用爱人、孩子的声音导航，伴随着熟悉的声音早起晚安……用声音来实现“分身”有术，这种留声，跟仅仅将声音录制下来的那种留声的意义是完全不一样的。

可能有人会说，这是人工智能对人类的又一次替代。以往我们看到，AI可以替代人类做一些机械性的、高重复性的工作，但是现在，AI要替代的是谁？信息媒体的早报主播？配音师？甚至连父母亲人的声音都要替代了吗？

其实，不妨换个角度理解问题。让普通用户不再是未来黑科技的旁观者，让普通人的声音永久保留，很多事情将变得温暖而美好。

搜狗联合新华社发布“AI合成主播”，主持人直呼“虐心”

提到声音复刻，提到科大讯飞，就不得不提搜狗。

在11月上旬的第五届世界互联网大会上，搜狗与新华社合作开发的全仿真智能合成主持人“AI合成主播”绝对是一件值得关注的新闻。观众只要向“AI合成主播”输入一句既有的新闻文本，屏幕上的新华社新闻主播就会用真人一样的声音播报，并且唇形、面部表情等都能与真人吻合。

通过“搜狗分身”技术打造“AI合成主播”，亦可全年365天、每天24小时进行播报，同时还能用无数个分身，同时在不同现场播报各种资讯。

ai写稿软件人类对AI最质朴的期待，是让机器帮人类做一些事情

合成主播的原型邱浩也是当天现场的主持人，在发布会上，他直言“虐心”。

对此，我们可能会担忧，未来我们的工作会不会被人工智能代替。毕竟“人工智能威胁论”已经不是一天两天了，AI写稿机器人也已经被广泛应用，海底捞的无人火锅店也已经开了起来。

其实，“人工智能威胁论”于大多数人，暂且是遥远的。“AI合成主播”出现在新闻里，或许也会带来那么一丝丝焦虑，以及类似“新华社主播都快要下岗了”这样的感叹。但是目前，AI技术并没有发展到炉火纯青的地步，我们也可以看到，“AI合成主播”的表情和声音多少有些生硬，目前的能力还只是“读稿子”，最多也是声情并茂地“读稿子”，而研发“AI合成主播”的目的，也不是为了替代谁或者让谁下岗。

搜狗CEO王小川说：“我们的愿景是让产品成为个人生活的好助手、好帮手。”AI现在能做到的，只是在感知层面，在认知技术方向上，机器背后的推理、知识、思考，以语言为核心的逻辑性的东西，机器的处理能力是有限的。涉及到人的高级活动的时候，机器目前是做不到的，还是需要人类灵活运用知识储备进行思考、分析。

新技术的未来

科大讯飞的语音合成技术从声音角度实现了“分身特技”，在录入对应的语料后，通过训练成音库就能复刻不同的声音。讯飞已通过开展合作，为中国移动、华为、高德、京东等众多企业提供了定制音库的解决方案。在to C层面，讯飞创造性地将工业级解决方案精简成普通用户能体验和应用的软件，让个人用户只需通过简单的语音录入样本，即可获得音库，从而将文字转化成自己的声音。未来，留声将广泛应用到车载导航、智能硬件、智能家居以及电台广播、有声阅读、游戏娱乐、早教玩具等领域。

“搜狗分身”通过少量的用户真实音视频数据，就可以快速定制出高度逼真的模型。批量复制的风格各异的人类形象，可以满足不同用户的个性化需求，提高不同行业和职业的信息生产传播效率。未来，“搜狗分身”技术也将在娱乐、医疗、法律、健康、教育等多领域提供更多个性化的内容，并且还将继续探索技术的边界，将该技术运用到跨国语言交流场景中去。

新生的技术正在与产业、行业结合，擦出未知的火花。

（文/樵苏）