当前位置:   article > 正文

NLP模型的tokenize方法中return_tensors参数_return_tensors="pt

return_tensors="pt

NLP模型的tokenize方法中return_tensors参数

在许多NLP模型的tokenize方法中,return_tensors参数可以指定tokenize之后返回的张量类型,常见的可选值包括:

‘tf’: 返回TensorFlow的张量对象Tensor。
‘pt’: 返回PyTorch的张量对象torch.Tensor
‘np’: 返回NumPy的ndarray对象。
None: 默认值,返回一个数字列表(list)。
这个参数可以根据使用的后端框架不同,选择返回不同的张量类型,以方便后续模型的输入。

例如:

import tensorflow as tf 
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("bert-base-cased")

# 返回TensorFlow张量
tokens = tokenizer("Hello world!", return_tensors='tf') 
print(type(tokens['input_ids'])) # <class 'tensorflow.python.framework.ops.Tensor'>

# 返回PyTorch张量
tokens = tokenizer("Hello world!", return_tensors='pt')
print(type(tokens['input_ids'])) # <class 'torch.Tensor'>

# 返回Numpy数组
tokens = tokenizer("Hello world!", return_tensors='np')
print(type(tokens['input_ids'])) # <class 'numpy.ndarray'>

# 返回列表
tokens = tokenizer("Hello world!") 
print(type(tokens['input_ids'])) # <class 'list'>
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19
  • 20

可以看到根据return_tensors不同,tokenizer返回的结果可以是TensorFlow/PyTorch/Numpy对象,或者默认的列表。

这提供了很大的灵活性,允许Tokenizer输出适应不同的后端框架,并且可以优化内存和速度。

完结!

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/你好赵伟/article/detail/342535
推荐阅读
相关标签
  

闽ICP备14008679号