当前位置: article > 正文

Hugging Face Course-Diving in 抱抱脸 Tokenizers library （Introduction & BPE）_fast tokenizers

作者：不正经 | 2024-05-22 09:20:07

踩

fast tokenizers

在这里插入图片描述

Introduction

在前几章中，使用了tokenizer库中别人在特定数据集上已经训练好的tokenizer，但是我在尝试用bert-base的checkpoint加载tokenizer到自己的数据集上，发现并不适用，所以就有了这一个章节，我们使用与模型预训练相同的tokenizer——但是当我们想从头开始训练模型时，我们该怎么做？？在这些情况下，使用在来自另一个领域或语言的语料库上预训练的标记器通常是次优的。例如，在英语语料库上训练的分词器在日语文本语料库上表现不佳，因为两种语言中空格和标点符号的使用非常不同。

如何在新的文本语料库上训练与给定checkpoint使用的tokenizer相似的新tokenizer
fast tokenizer的特点
当今 NLP 中使用的三种主要子词标记化算法之间的差异
如何使用
声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/不正经/article/detail/607557