33字幕是为了快速制作双语字幕而打造的一款AI字幕软件。
为了达到尽可能”快”的目的,准确是个非常重要的指标。
这里的准确具体包括:
识别少错字漏字,断句合理时间轴基本能对上台词翻译不要太生硬,句子通顺
我心目中理想的字幕工具便是:给音频识别出字幕,把几处出错的地方简单修正一下,便可以用了;如果需要翻译,不求信雅达,但要基本能看懂,语句通顺。
音频识别
第一步是音频转字幕,这里要感谢,如果没有它,那33字幕就要大打折扣了。
是 Open AI 开源的一个语音识别模型,经过一段时间的测试,我们发现它的large模型识别准确度非常好,可以基本满足我们的要求。
吭哧吭哧一顿优化后,终于把它部署到了 GPU 云服务器上。
是33字幕目前识别外语的一个主力语音识别引擎,当然,我们也有集成了其他的一些语音识别引擎,但是在英语或者小语种方面,我建议还是使用。
即便 的能力已经非常优秀,但是如果音频同时混合背景音乐和人声,识别精度也随下降,为了克服这个问题,我们支持识别前可以先进行提取人声:
这里其实是调用了另外一个分离音色的AI模型,也非常消耗GPU资源,尤其是长音频。
为了节省算力,我们建议你使用这个免费的服务:。
字幕翻译
在字幕翻译方面,我们也集成了很多家翻译商,虽然也尝试 ,但由于无法稳定控制输出质量,最终还是放弃了。
我们目前测试效果表现最好的是 DeepL,看来贵是有贵的道理的。
效果对比
那最终识别和翻译的质量到底怎么样呢?
总的来说,目前 + DeepL 的效果是最理想的。下面这几个演讲视频,也是直接用33字幕来直出的。
另外,我随机测试的更多视频,并整理到了飞书文档上面,可以去大概感受一下,当然这不是严谨的基准测试:效果对比。
字幕编辑
对于33字幕,它的设计初衷是希望通过结合AI的能力,用尽可能少的人工参与,低成本、高效率地制作双语字幕。
如果字幕需要大改的情形,并不适合用33字幕来进行处理,比如需要精细调整时间轴、设计复杂的字幕样式等情形,就不如使用 或者 pro 这类软件来处理更好一些。
不过我们也是有做了一些非常实用的字幕编辑功能,对于一些小修小补,它应付起来应该是游刃有余的。
(1)增 / 删 / 合并 / 调整时间
这些是字幕编辑器的基础要求,没啥特别的。
(2)撤销 / 恢复
不用担心操作失误,我们会帮你把操作记录下来。
你可以通过熟悉的 ctrl + z 和 ctrl + y 来迅速恢复。
(3)问题字幕检测
机器识别难免会出现一些问题行,软件会帮你检测有问题的行,你通过点击就可以快速定位并修正。
(4)全局替换
很多时间识别或者翻译出来的结果,错误的词也是惊人的一致,那么这个功能,就可以非常方面进行全局修改。
批量处理
另外一个想达到 “快” 的手段,便是同时处理多个任务了。因此33字幕在一开始,就考虑到了支持批量处理的特性。
单次批量处理同语种的音视频,或批量翻译同语种的字幕,都可以在33字幕上很好地支持:
批量识别
批量翻译
数据隐私
因为很多计算都需要在云端完成,所以无法避免要上传用户的数据。我们只能在一定范围内去保护数据的安全和隐私。
我们并不会把你的整个视频都上传上去,而是只提取音频来上传,并且在识别后会第一时间删除掉音频。(当然这部分用户无法感知)
产品定位
这个产品最大的用户目前是我们自己哈哈。
对于大部分的中文视频创作者,我们并不推荐你使用33字幕。
如果只是添加单轨中文字幕的需求,我们测试过剪映,生成字幕质量非常高,而且它是免费的,我们建议你首选它。
另外如有自己的 GPU 资源,可以尝试 buzz ;对于动手能力比较强的同学,还可以去 colab 部署个 模型,白嫖一下谷歌的算力。
以下是33字幕比较擅长的:
只有外语视频,需要给视频添加字幕和中文翻译有外语字幕文件,需要把字幕翻译成中文想给中文视频加上外语字幕需要批量翻译或批量识别字幕
总的来说,当你需要处理外语视频字幕时,请记得有这么一个工具(33字幕)可以帮到你。
产品主页:33字幕。