BERT tokenizer 增加全角标点符号

作者：小小林熬夜学编程 | 2024-04-26 07:22:42

踩

bert 的词表，哪怕是 bert-base-chinese，对中文全角标点的支持不是很好

from transformers import BertTokenizerFast

tokenizer = BertTokenizerFast.from_pretrained('models/bert-base-chinese')
tokenizer.tokenize("小明说：“你是厕所大灯笼——找‘屎’。”我无语了……")
"""
['小',
 '明',
 '说',
 '：',
 '[UNK]',
 '你',
 '是',
 '厕',
 '所',
 '大',
 '灯',
 '笼',
 '[UNK]',
 '[UNK]',
 '找',
 '[UNK]',
 '屎',
 '[UNK]',
 '。',
 '[UNK]',
 '我',
 '无',
 '语',
 '了',
 '[UNK]',
 '[UNK]']
"""
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32

因此在微调bert时，需要在vocab.txt 文件里把这些标点加上。直接替换 [unused] token 即可

[PAD]
…
—
“
”
‘
’
[unused7]
[unused8]
[unused9]
[unused10]
...
1
2
3
4
5
6
7
8
9
10
11
12

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/489701