来表示。 编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的_tokenize unk">
当前位置:   article > 正文

文本编解码tokenizer_tokenize unk

tokenize unk
import json
import re
from typing import List


class CharacterTokenizer:
    """
    Tokenizer的功能是实现文本的编解码。编码,即把字符转成数字,但是实际生活中的字符是无限的,我们总可以遇到新的字符,
    而这些字符在训练集中并不能得到充分训练,于是我们暂时用<unk>来表示。
    编码过后,无限的字符变成有限的id;而后,在解码阶段,将id恢复成原始的字符,那些可以恢复的字符都是得到充分训练的,而无法恢复的字符,
    可以理解成失真了。
    """
    def __init__(self):
        self.pad_token = '<pad>'
        self.digit_token = '<digit>'
        self.alpha_token = '<alpha>'
        self.unk_token = '<unk>'
        self.token2id = None

    def build_vocab(self, corpus_file_path, dump_file_path, min_count=5):
        token2freq = {
   }
        with open(corpus_file_path) as fin:
            for line in fin:
                line = json.loads(line.strip())['text']
                for ch 
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20
  • 21
  • 22
  • 23
  • 24
  • 25
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/281467
推荐阅读
  

闽ICP备14008679号