在本文中,我们将介绍AI技术在教学视频配音中的应用,并突出体现教学视频开发中使用AI技术的便捷、高效用与优质的优势。
在开始正式介绍之前,我们先来看一段30秒的视频,听一听、看一看,感受一下“AI配音”的效果。
顺便说一下,这个视频中除背景图外,其他所有素材,包括虚拟解说人像、虚拟人解说视频、对复杂背景的视频抠像与背景替换、解说语音、动态字幕都是使用AI制作或生成的。
界读书日全称“世界图书与版权日”,又称“世界图书日”。最初的创意来自于国际出版商协会。由西班牙转交方案给了联合国教育、科学及文化组织。
教学视频配音的重要性
在短视频盛行的今天,为微课教学视频配上语音解说(简称配音)是不可或缺的一项工作。响亮、清晰、准确的配音可以帮助学生更好地理解和掌握教学视频所传递的信息和主讲者所介绍的知识。同时,配音的质量也会直接影响到为视频制作字幕的正确性与效率。因此,我们需要重视并采用高质量的配音来提高教学视频的质量。
随着移动互联网技术的进一步发展,更高速度、更低资费、更普及的移动终端,或将推动“短视频阅读”成为下一代学习者的主流新阅读习惯,随之而来的将是对教学类短视频的需求。为了适应这一潮流,我们需要掌握快速创作教学类短视频素材的方法,目前在自媒体短视频领域中已涌现出大量风格一致、效果稳定的解说配音作品,这些配音多数正是来自AI语音配音技术。
制作真人配音的难点
在微课教学短视频创作过程中,提供语音解说信息最为耗时。传统制作流程中,为确保录制到高质量的配音,需要选择安静且声学效果合适的空间;配备指向性强、拾音效果好的高质量麦克风等音频设备;使用专用软件降低噪音、调整音频的音量、改善音频的音质,以达到最佳的听觉效果等。对主讲人的嗓音要求也很高,如果几段解说音频的录制时间间隔过长,主讲人的发音状态发生变化,就会导致语音响度、清晰度等出现差异。此外,音频处理软硬件参数也会因为各种原因调整而产生差异,这些都会影响解说配音的最终听觉效果。
使用AI配音的优势
AI语音配音技术是一种依赖于计算机程序将文字转化为语音的过程。与传统配音方法相比,AI配音技术有以下优势:
(1)节约时间和成本
传统的配音方法需要在一个较为专业的录音环境中进行,需要购置专门的设备来录音、编辑和混音。因人工失误等因素产生的录制错误,也需要不断地重录、剪辑、降噪、修饰等工作配合,才能完成一个解说音频的制作。有时等录制完后发现时长有较大偏差或其他原因,需要对文字稿进行修改,则可能要重新录制;又或者一个意外的环境噪音窜入,一声咳嗽等也可能毁掉一整段已经录制的音频。因此,传统配音非常耗时且昂贵。相比之下,AI配音技术只需要输入文字,计算机便会自动将其转化为语音,可以大大节省时间和成本。
(2)避免人的不确定性
前面提到真人的语音、语调和发音可能会受到情绪、身体状况和疲劳等因素的影响,从而导致配音质量不稳定,这种情况在一些时长较长的视频解说配音中比较常见。AI配音技术则不受人为因素影响,可以保证配音质量的一致性和稳定性,即使跨越很长时间和很多不同风格作品的录制,都不会导致质量上的波动。只要软件基本参数设置不变,为一段数月前的AI语音补录内容,并替换原音频中的数秒钟的内容,也不会在听觉上产生不一致的感觉。
(3)多语言配音
随着我国教育的国际化程度不断深化,教育教学资源已经不满足于从国外输入了。在与“一带一路”“中东欧”等国家(地区)的合作中,我国的教育也开始更多地承担起“走出去”的任务。只要有合格的母语解说文本,然后使用高质量的人工智能翻译工具,就可以根据需要生成几乎任何常见语种的解说版本,而且AI配音技术可以完美地支持这些语言的配音。这对于需要制作多语言教学视频的教育机构来说非常方便,也会成倍地压缩制作多语言版本教学视频的成本和时间。
(4)高安全性
随着人工智能技术在语音合成领域的突飞猛进,目前已经可以做到从几分钟的真人语音中提取语音要素,合成出与真人语音高度相似的语音文件。这使得“语音信息”成为像“指纹信息”或“人脸信息”等类似需要保护的重要信息。就像在高清摄像头刚开始“进驻”手机时,人们一般不会意识到拍摄和分享自己“剪刀手”照片会泄露自己的“指纹信息”一样,人脸信息也存在类似的问题。目前的人工智能技术已经可以通过1~3张清晰的正面与侧面人像,自动合成任何想要的人脸图像,甚至可以合成视频,包括变化的、精细的面部表情,甚至是与语音匹配的口型变化。在文章开头提供的30秒视频中,就有使用一张静态的正面人像图片(经由AI生成)合成的解说画面,不仅“人”是虚构的,扭头、眨眼、嘴唇开合等动作都是AI合成的。如果教师采用自己的真人声音为教学视频配音的话,就很可能会产生类似的安全问题。反观AI配音技术,就可以避免真人配音过程中出现敏感信息泄露问题,使语音数据也可以得到严格的保护。
实现方法
以前要使用AI技术为教学视频添加高质量的配音,只有精通计算机编程技术的“高手”,才能通过调用一些开源的工具和库,如的和Baidu的Deep Voice等才可以。如今,不懂技术的普通人也可以使用一些常规软件轻松制作并获取AI配音的音频文件。
(1)软件准备
以操作系统下进行AI配音工作的操作为例,只需要3个操作系统自带的软件就可以完成AI配音文件的制作。
第一个软件是记事本软件。它的作用是编辑解说配音的文字,然后保存成txt纯文本文件。这是满足工作所需的最基本的软件,如果你愿意,也可以使用功能更加复杂的图文文字编辑软件,然后输出成txt文件或pdf文件加以保存。
第二个软件是微软的新浏览器软件Edge。这也是新版的操作系统中自带的软件,平常主要用来浏览互联网信息。
第三个软件是录音机软件。我们无需特别安装第三方录音软件,只需要使用操作系统自带的“录音机”软件即可。使用这个软件将语音音频保存为mp3等常见音频文件,供视频合成使用。
前两个软件都不需要额外的设置,第三个“录音机”软件因为是用来录制语音并保存为声音文件的,需要进行一些设置准备。
首先,我们需要录制的声音来源并不是电脑的麦克风等采集的外部声音,而是操作系统的内部声音。如果直接通过电脑的麦克风去录制从电脑扬声器中播放的声音,会有很多环境音被录制进去,声音的清晰度、音量等都很受影响。但系统默认的设置,内部声音的采集是禁用的。如下图中所示,录音的音源只有“麦克风”一个选项。我们需要点击“在设置中更改默认值”来调整。
在“系统-声音”对话框中将界面滚动到底部,点击“更多声音设置”,见下图。
在打开的“声音”对话框中,选择“录制-立体声混音”,此时“立体声混音”的状态通常显示为“已停用”,再点击“属性”按钮,进行修改,见下图。
在弹出的“立体声混音 属性”对话框中,更改“设备用法”为“使用此设备(启用)”,然后点击“确定”按钮,见下图。
系统设置完成以后,回到录音机软件,设置声音采集设备为“立体声混音”的选项,见下图。
为了保证录制的音频文件的质量,我们还可以对录音机软件进行一些设置。点击右上角“…”按钮,再点击“设置”,见下图。
在录音机的“设置”对话框中,可以根据需要选择录音文件的格式,比如通用性较强的有损压缩“MP3”格式或无损压缩的“FLAC”“WAV”格式等,还可以选择不同精细程度的采样质量,如“高”采样质量等。
(2)主要操作
完成准备工作后,制作AI配音的录音文件非常简单,一共分5步。
第一步,将需要配音的文字内容录入到记事本中,然后保存为纯文本文件,注意选择保存文件的类型、编码等信息,点击“保存”完成,见下图。
第二步,打开Edge浏览器窗口,从资源管理器中将刚才保存的配音文字txt文件拖到Edge浏览器窗口中进行显示,效果见下图。
第三步,在显示文字内容的空白处点击右键,在快捷菜单中选择“大声朗读”,见下图。
第四步,设置语音属性。点击右上角的设置按钮,然后选择合适的语速、角色、语言种类、方言等属性,见下图。
其中,中文的语音中带有“”属性的,更加接近真人的音色和口语感觉。在中文语音中,通常轻松话题的选择男声“Yunxi”的音色(本文开头30秒视频就是采用了这个音色),如果是一些要求字正腔圆的新闻播音场景,则可以使用男声“”“”的音色,或女声“”的音色等。选择完成后,点击播放按钮可以进行试听,如果不满意可以更改语速或更改音色,直到相对满意为止,见下图。
第五步,使用录音机软件,进行录制。将Edge浏览器窗口和录音机窗口调整到合适的大小和位置。先按下录音机软件的录音按钮,然后按下Edge中的语音播放按钮。等Edge朗读结束后,按下录音机软件的停止按钮。这样就获得了AI语音文件了。
(3)应用拓展
这里介绍的方法不仅可以录制Edge中的朗读内容,更可以录制所有通过电脑播放出来的声音。因此,AI配音音频文件的获取来源并不局限于今天我们介绍的Edge浏览器内容朗读这一种方式。只要能够通过电脑播放出来,任何AI语音合成软件或服务,都可以采用这个方法采集到。
总结
通过这个例子,我们可以看到,使用AI语音合成技术,老师们无需花费大量时间、精力和金钱进行配音制作,就能够快速高效创建出更高质量的教学视频,这正是AI技术在教学视频配音中的潜力和优势。我们非常乐于见到广大教师在人工智能技术的帮助下,投入到教学短视频创作中,为“教育+AI”添砖加瓦,使更多学生可以享受到优质的教学资源。
供稿:宁波市教育服务与电化教育中心