当前位置:   article > 正文

详解Keras3.0 KerasNLP Models: GPT2 GPT2Tokenizer

gpt2tokenizer

1、GPT2Tokenizer

用于将文本数据转换为适合训练和预测的格式,主要功能是将输入的文本进行分词、编码等操作,以便在神经网络中使用

keras_nlp.models.GPT2Tokenizer(vocabulary, merges, **kwargs)
参数说明 
  • vocabulary一个字典,包含词汇表的映射关系。键是单词,值是对应的索引。
  • merges一个列表,包含合并规则。每个元素是一个元组,表示两个需要合并的单词及其对应的索引。
  • **kwargs其他可选参数。
示例
  1. from keras_nlp.models import GPT2Tokenizer
  2. # 定义词汇表和合并规则
  3. vocabulary = {"hello": 1, "world": 2, "!": 3}
  4. merges = [(1, 2)]
  5. # 创建分词器实例
  6. tokenizer = GPT2Tokenizer(vocabulary, merges)
  7. # 对文本进行分词和编码
  8. text = "hello world!"
  9. encoded_text = tokenizer.encode(text)
  10. print(encoded_text) # 输出:[1, 2, 3]
  11. # 对编码后的文本进行解码
  12. decoded_text = tokenizer.decode(encoded_text)
  13. print(decoded_text) # 输出:"hello world!"

 

2、from_preset

GPT2Tokenizer.from_preset()是Hugging Face的Transformers库中的一个函数,用于从预定义的预设中加载一个GPT-2分词器。这个函数可以帮助你快速地创建一个适用于特定任务的分词器,而无需从头开始训练。

GPT2Tokenizer.from_preset("gpt2_base_en")
参数说明 

在这个例子中,我们加载的是"gpt2_base_en"预设,它包含了英文版本的GPT-2模型的基本参数和词汇表

示例
  1. from transformers import GPT2Tokenizer
  2. # 创建分词器
  3. tokenizer = GPT2Tokenizer.from_pretrained("gpt2_base_en")
  4. # 对输入进行分词
  5. tokens = tokenizer("The quick brown fox tripped.")
  6. print(tokens) # 输出:{'input_ids': [31474, 2024, 2003, 1037, 2327, 102], 'attention_mask': [1, 1, 1, 1, 1, 1]}
  7. # 对输入进行反分词
  8. text = tokenizer.decode(tokens['input_ids'])
  9. print(text) # 输出:"The quick brown fox tripped."
  • gpt2_base_en:这是一个12层的GPT-2模型,参数量为124.44M,保持了大小写。它使用WebText数据集进行训练。
  • gpt2_medium_en:这是一个24层的GPT-2模型,参数量为354.82M,保持了大小写。它也使用WebText数据集进行训练。
  • gpt2_large_en:这是一个36层的GPT-2模型,参数量为774.03M,保持了大小写。同样使用WebText数据集进行训练。
  • gpt2_extra_large_en:这是一个48层的GPT-2模型,参数量为1.56B,保持了大小写。它也使用WebText数据集进行训练。
  • gpt2_base_en_cnn_dailymail:这是一个12层的GPT-2模型,参数量为124.44M,保持了大小写。它使用CNN/DailyMail摘要生成数据集进行微调。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/413188
推荐阅读
相关标签
  

闽ICP备14008679号