一般来说我们是使用自动语音识别( ,ASR)技术对视频的声音进行翻译并生成字幕,常规的操作步骤如下:
确定翻译软件:选择一个支持ASR技术的翻译软件;
上传视频:将需要处理的视频上传到翻译软件中,支持多种视频格式;
开始语音识别:启动语音识别功能,讲声音提取成文字;
翻译文本:使用翻译软件,比如,谷歌翻译,百度翻译,翻译等工具,讲提取到的问题翻译成目标语言的文字;
生成字幕:经过翻译后,您可以选择将文本转化为字幕,软件一般提供简体中文、繁体中文、英文、日文、韩文等多种语言,选择需要的语言字幕后,即可生成字幕文件。
剪辑合成,使用剪辑工具,将带时间轴的字幕文件,合并到视频当中,这样就获得一个翻译后的视频文件啦。
原始视频-英文字幕和声音
翻译后视频-中文字幕
根据视频内的字幕进行翻译
这个原理其实和声音提取翻译的逻辑是类似的,不过用到的是OCR的技术,常规的操作步骤如下:
获取视频中的文字:要生成视频字幕,首先需要从视频中获取文字。如果视频中已经存在文字,可以直接使用该文字进行翻译和生成字幕;如果没有文字,可以通过OCR技术将视频里出现的文字识别出来,然后再进行翻译和生成字幕。
确定翻译软件:选择一个支持文本翻译的软件,如 、deepl.`、百度翻译, 等。
翻译文本:选定需要翻译的语言,翻译软件将自动将文本翻译为对应的语言。一些翻译软件还提供辞典和翻译建议,以保证翻译结果的准确性。
生成字幕:翻译完成后,您可以选择将翻译结果转化为字幕文件,软件一般提供简体中文、繁体中文、英文、日文、韩文等多种语言的字幕模板可供选择。
剪辑合成,使用剪辑工具,将带时间轴的字幕文件,合并到视频当中,这样就获得一个翻译后的视频文件啦,
这里面有一些难点,比如要保留一些字幕的样式,位置,大小,等等,这个我们后面再讲。
这里也放上一个案例:
翻译视频中的文字
视频翻译并生成画外音-例中文翻译英语
这个整体的操作流程和上面的非常相似,就是在拿到视频的SRT字幕文件后,找到一个合适的TTS软件,讲文字变成声音,重复的过程就不在复数了, 这里面有比较多的小细节需要注意,声音的音色,视频画面的对齐。
翻译并配音,图片没有办法展示配音效果,就不放案例了,放一下操作界面
一般配音的操作界面
视频翻译的难点
口音或方言难以处理:部分视频的主要语言可能是一些具有浓厚方言或口音的语言,这种情况下视频翻译需要处理这些方言问题,而这往往需要翻译工具有相应的方言识别或处理能力。
画面对齐:视频中说话者语速有时可能会非常快,或者暂停时间比较长,翻译工具需要有相应的能力调节这些不规则的语速。
特定行业词汇或术语:有些视频涉及到特定领域或行业,其用词和术语的难度比较高,需要有相应的专业知识储备和理解能力来正确翻译,否则难以准确地传达视频信息。(deepl在一些词汇的精度上相对较好)
翻译精度问题:自动翻译工具虽然能实现视频翻译的自动化,但对于词汇的多义性、上下文含义、别称、俚语等问题,其翻译精度还需要不断提高。(翻译上下文关联的能力比较好)
翻译风格的问题:视频中文字或者声音柔和平静或者激动激烈,选用不当的翻译词汇或者翻译风格将影响视频的传达效果。对于这些问题还需要考虑人工翻译来保证翻译质量。当然如果在低成本或者是大量的翻译工作上来看,可以优先机器,然后人工交参杂工作。
人工翻译和视频翻译的对比
对比表格
全能AI视频翻译软件-
功能简介