赞
踩
为了达到尽可能"快"的目的,准确是个非常重要的指标。
这里的准确具体包括:
我心目中理想的字幕工具便是:给音频识别出字幕,把几处出错的地方简单修正一下,便可以用了;如果需要翻译,不求信雅达,但要基本能看懂,语句通顺。
第一步是音频转字幕,这里要感谢Whisper,如果没有它,那33字幕就要大打折扣了。
Whisper 是 Open AI 开源的一个语音识别模型,经过一段时间的测试,我们发现它的large模型识别准确度非常好,可以基本满足我们的要求。
吭哧吭哧一顿优化后,终于把它部署到了 GPU 云服务器上。
Whisper是33字幕目前识别外语的一个主力语音识别引擎,当然,我们也有集成了其他的一些语音识别引擎,但是在英语或者小语种方面,我建议还是使用Whisper。
即便 Whisper 的能力已经非常优秀,但是如果音频同时混合背景音乐和人声,识别精度也随下降,为了克服这个问题,我们支持识别前可以先进行提取人声:
这里其实是调用了另外一个分离音色的AI模型,也非常消耗GPU资源,尤其是长音频。
为了节省算力,我们建议你使用这个免费的服务:vocalremover。
在字幕翻译方面,我们也集成了很多家翻译商,虽然也尝试 ChatGPT,但由于无法稳定控制输出质量,最终还是放弃了。
我们目前测试效果表现最好的是 DeepL,看来贵是有贵的道理的。
那最终识别和翻译的质量到底怎么样呢?
总的来说,目前 Whisper + DeepL 的效果是最理想的。下面这几个演讲视频,也是直接用33字幕来直出的。
//B站视频
我们前天尝试把海外的日语Ted视频,用33字幕翻译后搬运到B站,收到的网友评价:
另外,下面是随机测试的更多视频,并整理到了飞书文档上面,可以去大概感受一下,当然这不是严谨的基准测试:效果对比。
https://qe9fgwh5hz.feishu.cn/docx/BbefdiBXZo0234xVOBlcxddUnJb
对于33字幕,它的设计初衷是希望通过结合AI的能力,用尽可能少的人工参与,低成本、高效率地制作双语字幕。
如果字幕需要大改的情形,并不适合用33字幕来进行处理,比如需要精细调整时间轴、设计复杂的字幕样式等情形,就不如使用 Aegisub 或者 Arctime pro 这类软件来处理更好一些。
不过我们也是有做了一些非常实用的字幕编辑功能,对于一些小修小补,它应付起来应该是游刃有余的。
这些是字幕编辑器的基础要求,没啥特别的。
不用担心操作失误,我们会帮你把操作记录下来。
你可以通过熟悉的 ctrl + z
和 ctrl + y
来迅速恢复。
机器识别难免会出现一些问题行,软件会帮你检测有问题的行,你通过点击就可以快速定位。
很多时间识别或者翻译出来的结果,错误的词也是惊人的一致,那么这个功能,就可以非常方面进行全局修改。
另外一个想达到 “快” 的手段,便是同时处理多个任务了。因此33字幕在一开始,就考虑到了支持批量处理的特性。
单次批量处理同语种的音视频,或批量翻译同语种的字幕,都可以在33字幕上很好地支持:
因为很多计算都需要在云端完成,所以无法避免要上传用户的数据。我们只能在一定范围内去保护数据的安全和隐私。
我们并不会把你的整个视频都上传上去,而是只提取音频来上传,并且在识别后会第一时间删除掉音频。(当然这部分用户无法感知)
对于大部分的中文视频创作者,我们并不推荐你使用33字幕。
对于添加单轨中文字幕的需求,我们测试过剪映,生成字幕质量非常高,而且它是免费的,我们建议你首选它。(虽然33字幕识别中文也很出色)
如果有自己的 GPU 资源,可以尝试 buzz ;对于动手能力比较强的同学,还可以去 Google colab 部署个 Whisper 模型,白嫖一下谷歌的算力。
而33字幕,则在处理外语方面会更厉害一些,以下是33字幕比较擅长的:
总而言之,当你需要制作和翻译外语视频字幕时,别忘了33字幕可以帮到你。
产品开发不易,你的点赞、转发和分享,是对我们莫大的鼓励。
参考链接:
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。