赞
踩
fast_tokenizer
是一个布尔值参数,用于指定是否使用快速的 tokenizer。在某些情况下,使用快速的 tokenizer 可以加快模型训练和推理速度。如果 fast_tokenizer
参数为 True
,则会使用快速的 tokenizer;否则,将使用默认的 tokenizer。
快速的 tokenizer 通常使用一些技巧来减少 tokenization 过程中的计算量,以便更快地处理文本数据。其中一种常见的技巧是使用字典或哈希表来存储单词,而不是使用字符串。这样可以避免在字符串中搜索和替换子字符串的操作,从而提高 tokenization 的速度。
另外,快速的 tokenizer 还可以使用一些预处理技术,例如将单词转换为其基本形式(即去掉后缀或前缀),或者将多个连续的空格或标点符号合并为一个空格或标点符号。
总之,快速的 tokenizer 通过使用一些优化技巧和预处理技术来减少计算量,从而提高 tokenization 的速度。
tokenizer = load_hf_tokenizer(args.model_name_or_path_baseline, fast_tokenizer=True)
- def load_hf_tokenizer(model_name_or_path, fast_tokenizer=True):
- if os.path.exists(model_name_or_path):
- # Locally tokenizer loading has some issue, so we need to forc
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。