用Python从.srt或.vtt等格式的字幕文件中提取纯文字_5 字幕文件subtitles.srt,如图7-2所示。编写程序取字幕文件中的台词并写入新

作者：从前慢现在也慢 | 2024-04-07 17:13:37

踩

5 字幕文件subtitles.srt,如图7-2所示。编写程序取字幕文件中的台词并写入新

现在，很多视频网站都能方便地把字幕文件下载到电脑上，如果没有时间看视频，只看文字无疑是一种高效的学习方式。但是，如果直接读字幕文件却非常不舒服，因为字幕文件中有大量的时间标记和索引标记，如下图所示，这会影响你的阅读体验。

1
00:00:00,533 --> 00:00:01,266
大家好,我是吕艳朋

2
00:00:01,366 --> 00:00:06,266
今天聊一聊喝酒到底能不能帮助睡眠

3
00:00:06,866 --> 00:00:10,333
有不少人相信喝酒可以助眠

4
00:00:10,666 --> 00:00:17,633
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验

5
00:00:18,300 --> 00:00:18,766
他说

6
00:00:18,766 --> 00:00:20,666
解决失眠问题很简单
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23

那么如何把字幕文件中的文字单独提取出来呢？

仔细观察发现，我们不需要的内容都是数字和空行，那么去掉单独的空行’\n’，以及开头和结尾都是数字的行，剩下的就是我们需要的纯字幕文字了。

可用如下Python代码来实现提取文字，并写入到文本文件。

new = []
with open("subtitle.srt", encoding="utf-8-sig") as f:
    for sub in f.readlines():
        if sub[0] not in list('\n0123456789') and sub[-2] not in list('0123456789'):
            new.append(sub)
new = [ele.strip() for ele in new]

with open("content.txt",'w') as file:
    for line in new:
        file.write(line+'\n')
1
2
3
4
5
6
7
8
9
10

提取后的效果如下：

大家好,吕艳朋
今天聊一聊喝酒到底能不能帮助睡眠
有不少人相信喝酒可以助眠
我也不止一次听到有人这样给失眠的人介绍自己的入睡经验
他说
解决失眠问题很简单
1
2
3
4
5
6

但这样仍然存在一个小问题，如果字幕的开关和结尾都是数字或是单独的一串数字，如电话号码，那么就不能被识别为文字。

当然，可以通过判断上一段是否是时间标记来确定该段是否为字幕文字，稍等麻烦一些，你有更简单的方法吗？

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/379711