[详细过程] | 使用tokenizers训练wordpiece模型_wordpiece训练

作者：运维做开发 | 2024-07-15 08:51:31

踩

wordpiece训练

[详细过程] | 使用tokenizers训练wordpiece模型

大家好，我是亓官劼（qí guān jié ），在【亓官劼】公众号、CSDN、GitHub、B站、华为开发者论坛等平台分享一些技术博文，主要包括前端开发、python后端开发、小程序开发、数据结构与算法、docker、Linux常用运维、NLP等相关技术博文，时光荏苒，未来可期，加油~

如果喜欢博主的文章可以关注博主的个人公众号【亓官劼】(qí guān jié)，里面的文章更全更新更快。如果有需要找博主的话可以在公众号后台留言，我会尽快回复消息，其他平台私信回复较慢。

注：本专栏仅为个人解决问题过程中简单记录，除非标题中带有详细过程的文章，其他均没有详细过程以及解释
注：本专栏仅为个人解决问题过程中简单记录，除非标题中带有详细过程的文章，其他均没有详细过程以及解释
注：本专栏仅为个人解决问题过程中简单记录，除非标题中带有详细过程的文章，其他均没有详细过程以及解释

tokenizers是hugging face开源的一个工具包，GitHub：tokenizers

安装直接pip install tokenizers也可以

使用tokenizers训练wordpiece如下，具体看代码注释，非常的简单。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/运维做开发/article/detail/828542