当前位置:   article > 正文

用Python从.srt或.vtt等格式的字幕文件中提取纯文字_5 字幕文件subtitles.srt,如图7-2所示。编写程序取字幕文件中的台词并写入新

5 字幕文件subtitles.srt,如图7-2所示。编写程序取字幕文件中的台词并写入新

现在,很多视频网站都能方便地把字幕文件下载到电脑上,如果没有时间看视频,只看文字无疑是一种高效的学习方式。但是,如果直接读字幕文件却非常不舒服,因为字幕文件中有大量的时间标记和索引标记,如下图所示,这会影响你的阅读体验。

1
00:00:00,533 --> 00:00:01,266
大家好,我是吕艳朋

2
00:00:01,366 --> 00:00:06,266
今天聊一聊喝酒到底能不能帮助睡眠

3
00:00:06,866 --> 00:00:10,333
有不少人相信喝酒可以助眠

4
00:00:10,666 --> 00:00:17,633
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验

5
00:00:18,300 --> 00:00:18,766
他说

6
00:00:18,766 --> 00:00:20,666
解决失眠问题很简单
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23

那么如何把字幕文件中的文字单独提取出来呢?

仔细观察发现,我们不需要的内容都是数字和空行,那么去掉单独的空行’\n’,以及开头和结尾都是数字的行,剩下的就是我们需要的纯字幕文字了。

可用如下Python代码来实现提取文字,并写入到文本文件。

new = []
with open("subtitle.srt", encoding="utf-8-sig") as f:
    for sub in f.readlines():
        if sub[0] not in list('\n0123456789') and sub[-2] not in list('0123456789'):
            new.append(sub)
new = [ele.strip() for ele in new]

with open("content.txt",'w') as file:
    for line in new:
        file.write(line+'\n')
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10

提取后的效果如下:

大家好,吕艳朋
今天聊一聊喝酒到底能不能帮助睡眠
有不少人相信喝酒可以助眠
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验
他说
解决失眠问题很简单
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6

但这样仍然存在一个小问题,如果字幕的开关和结尾都是数字或是单独的一串数字,如电话号码,那么就不能被识别为文字。

当然,可以通过判断上一段是否是时间标记来确定该段是否为字幕文字,稍等麻烦一些,你有更简单的方法吗?

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/379711
推荐阅读
相关标签
  

闽ICP备14008679号