当前位置:   article > 正文

NLP-最新库Transformers(一)概述[安装、快速入门、术语表]_transformer第三方库

transformer第三方库


Transformers是一个用于自然语言处理(NLP)的Python第三方库,实现Bert、GPT-2和XLNET等比较新的模型,支持TensorFlow和PyTorch。

该库在设计时考虑了两个强烈的目标:

  • 尽可能容易且快速地使用:
    • 我们尽可能限制了要学习的面向对象抽象的类的数量,实际上几乎没有抽象,每个模型只需要使用三个标准类:配置、模型和tokenizer
    • 所有这些类都可以通过使用公共的from_pretrained()实例化方法从预训练实例以简单统一的方式初始化,该方法将负责从库中下载,缓存和加载相关类提供的预训练模型或你自己保存的模型。
    • 因此,这个库不是构建神经网络模块的工具箱。如果您想扩展/构建这个库,只需使用常规的Python/PyTorch模块,并从这个库的基类继承,以重用诸如模型加载/保存等功能。
  • 提供性能与原始模型尽可能接近的最新模型:
    • 对于每种架构,我们至少提供一个示例,该示例再现了该架构的正式作者提供的结果
    • 代码通常尽可能地接近原始代码,这意味着一些PyTorch代码可能不那么pytorch化,因为这是转换TensorFlow代码后的结果。

1、安装

1.1 依赖:

​ Python 3.6+ and PyTorch 1.1.0

1.2 安装

(1)pip安装

pip install transformers
  • 1

(2) 源码:

To install from source, clone the repository and install with:

git clone https://github.com/huggingface/transformers.git
cd transformers
pip install .
  • 1
  • 2
  • 3

1.3 OpenAI GPT原始标记分析流程

如果要实现OpenAI GPT 的本文令牌化过程,则需要安装ftfy``SpaCy`

pip install spacy ftfy==4.4.3
python -m spacy download en
  • 1
  • 2

如果您未安装ftfySpaCy,则penAI GPT令牌解析器将默认使用BERT的BasicTokenizer后跟Byte-Pair Encoding(对于大多数用法来说应该没问题,不用担心)。`进行令牌化,

1.4 有关模型下载的注意事项(连续集成或大规模部署)

如果您希望从我们的托管存储桶中下载大量模型(超过1,000个)(例如通过您的CI设置或大规模生产部署),请在您端缓存模型文件。它将更快,更便宜。如果您需要任何帮助,请随时与我们私下联系。

1.5 您要在移动设备上运行Transformer模型吗?

您应该查看我们的swift-coreml-transformers回购。

它包含了一套工具来转换PyTorch或TensorFlow 2.0训

本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号