当前位置:   article > 正文

bert的tokenizer.encode_plus使用_berttokenizer.encode padding

berttokenizer.encode padding
  1. encoded_dict = tokenizer.encode_plus(
  2. a,
  3. b,
  4. max_length=max_seq_length,
  5. return_overflowing_tokens=True,
  6. padding="max_length",
  7. stride=0,
  8. truncation="only_second",
  9. return_token_type_ids=True
  10. )
  11. # 输出结果结构: [cls] a [seq] b [seq]
  12. # a和b 可以是 id和字符 的任意组合,如:“a是id列表,b是字符列表”;
  13. # max_length 最大长度 一般为512
  14. # return_overflowing_tokens 这个属性在分块中很重要,可以输出截断后剩余部分,
  15. # 和truncation配合使用可以选择截断 a和b 中哪一个;
  16. # padding 用于0补全
  17. # stride 重叠部分长度 如:abc和bcd的重叠部分长度为2
  18. # truncation 这个属性选择截断方式,如‘only_second’表示只截断第二个序列b,其他的种类相似;
  19. # return_token_type_ids 表示是否输出type ids。

return_overflowing_tokens 属性还可以用来检查 a和b 的组合长度是否超过512,使用:

assert encoded_dict['overflowing_tokens'] == []

return_overflowing_tokens 还可以进行循环分块,只需用其更新b:

b = encoded_dict['overflowing_tokens']

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/不正经/article/detail/559381
推荐阅读
相关标签
  

闽ICP备14008679号