来表示。 编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的_tokenize unk">
赞
踩
import json import re from typing import List class CharacterTokenizer: """ Tokenizer的功能是实现文本的编解码。编码,即把字符转成数字,但是实际生活中的字符是无限的,我们总可以遇到新的字符, 而这些字符在训练集中并不能得到充分训练,于是我们暂时用<unk>来表示。 编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的,而无法恢复的字符, 可以理解成失真了。 """ def __init__(self): self.pad_token = '<pad>' self.digit_token = '<digit>' self.alpha_token = '<alpha>' self.unk_token = '<unk>' self.token2id = None def build_vocab(self, corpus_file_path, dump_file_path, min_count=5): token2freq = { } with open(corpus_file_path) as fin: for line in fin: line = json.loads(line.strip())['text'] for ch
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。