当前位置:   article > 正文

AI测试入门:认识AI大模型中的Token_ai训练中的token是什么

ai训练中的token是什么

前言

在人工智能和自然语言处理的领域中,“Token”是一个基础且至关重要的概念。然而,对于这个术语的翻译,各有不同的见解,包括“标记”、“词”和“令牌”。本文将详细探讨在大语言模型中,Token的含义、作用、不同的Tokenization技术,以及如何有效地理解和应用Token。

什么是Token?

Token是大语言模型中用来表示文本片段的基本单位。它可以是一个汉字、一个英文单词、甚至是多个字符组成的序列。

Token在不同语言中的表现各异,例如,在汉语中,一个Token通常对应一个汉字,而在英语中,一个Token可能包含一个或多个单词。

对于汉语等字形语言,一个Token可能只包含一个字符,而对于英语等词素语言,一个Token可能包含一个或多个单词。

具体的Token数量和字符数之间的关系,取决于分词器的设计。

Token在大模型中的应用

大语言模型的训练语料数量、上下文限制以及生成速度等关键指标,都是用Token来表示的。以下是一些具体的应用实例:

  1. 训练数据量:例如,通义千问-7B使用超过2.4万亿Tokens的数据进行预训练。
  2. 上下文长度:模型后面带着8k、32k等标记,指的是在生成响应或进行预测时的最大文本长度。
  3. 生成速度:评估大模型生成速度的TPS(Token Per Second),即每秒输出Token的数量。

不同模型的每次输出Token上限

在实际应用中,不同的Tokenization技术和模型设计都会影响Token的表现。

  • GPT-3:每次输出的最大上限为2049个Token,可以写出约1000字的中文文章或1720字的英文文章。
  • GPT-4:每次输出的最大上限为32768个Token,约为16056个中文字或25000个英文字。
  • 百度文心一言-3.0(ERNIE 3.0):每次输出的最大上限为4096个Token,约为2048个中文字或3000个英文字。
  • 阿里通义千问-7B(Tongyi Qianwen-7B):每次输出的最大上限为8192个Token,约为4096个中文字或6000个英文字。

不同的Token数量上限意味着这些模型在处理和生成长文本时,能够保持较高的效率和准确性。这对于实际应用中的各种任务,例如机器翻译、文本生成和对话系统等,都是至关重要的。

Tokenization技术

Tokenization是将文本分割成Token的过程,这一过程对于捕捉文本的语义和句法结构至关重要。

目前,主要有以下几种Tokenization技术:

字节对编码(Byte Pair Encoding, BPE)

BPE是一种子词分词方法,它通过合并频繁出现的字符或子词对来构建词汇。GPT-3和GPT-4模型使用的就是这种方法。BPE在处理不同语言时的效率可能有所不同,但它具有良好的通用性。

子词级Tokenization

子词级Tokenization将单词拆分成更小的单元,适用于复杂语言和词汇。这种方法有助于处理未登录词和拼写变体,增强模型的泛化能力。

单词级Tokenization

单词级Tokenization是最基本的文本处理方法,每个单词都作为一个独立的Token。这种方法简单易行,但在处理复杂语言和词汇时存在局限性。

字节级Tokenization

字节级Tokenization将每个字节视为一个Token,适用于多语言任务。它能够处理不同语言的文本多样性,但可能会导致Token数量过多。

混合Tokenization

混合Tokenization结合了词级和子词级Tokenization的优点,平衡了细节和可解释性。它在实际应用中表现出较好的性能。

不同模型的Tokenization方法介绍

不同模型采用不同的Tokenization方法,这也影响了Token的具体含义和表现。

例如:

OpenAI模型

OpenAI在Tokenization方法上,OpenAI主要采用了字节对编码(Byte Pair Encoding, BPE)技术。

  • BPE:通过合并频繁出现的字符或子词对,构建一个包含常见片段的词汇表。这种方法能够有效减少词汇表的大小,提高模型的训练和生成效率。

这种方法使得OpenAI的模型能够在不同语言和文本长度下表现出色,同时确保较高的计算效率和准确性。

根据OpenAI的官方文档的介绍,1000个Token通常代表750个英文单词或500个汉字。每个Token大约为4个字符或0.75个单词。
OpenAI Token 计算器
在这里插入图片描述
在这里插入图片描述

百度文心一言

百度文心一言在Tokenization方法上采用了基于字节对编码(BPE)和WordPiece的混合技术。

  • BPE:通过合并频繁出现的字符或子词对,构建一个包含常见片段的词汇表。这种方法可以有效减少词汇表的大小,提高模型的训练效率。
  • WordPiece:类似于BPE,但在处理未登录词和长尾词时更加精细。WordPiece会将不在词汇表中的词进一步分解,直到所有部分都在词汇表中。

这种混合技术使得文心一言能够更好地处理不同语言的复杂性,同时保证较高的训练和生成效率。

百度文心一言Token计算器在这里插入图片描述

阿里通义千问

阿里通义千问(Tongyi Qianwen)在Tokenization方法上也采用了字节对编码(BPE)和WordPiece的混合技术。

  • BPE:通过合并频繁出现的字符或子词对,构建一个包含常见片段的词汇表。这种方法能够有效减少词汇表的大小,提高模型的训练效率。

  • WordPiece:类似于BPE,但在处理未登录词和长尾词时更加精细。WordPiece会将不在词汇表中的词进一步分解,直到所有部分都在词汇表中。

这种混合技术使得通义千问能够更好地处理不同语言的复杂性,同时保证较高的训练和生成效率。

阿里通义千问Token计算器
在这里插入图片描述

总结

在大语言模型中,理解Token的定义和应用,以及各种Tokenization技术的差异,对于深入优化和掌握大语言模型至关重要。无论是选择适合的Tokenization方法,还是在实际应用中评估和优化Token的使用,都需要综合考虑语言的特性和具体任务的需求。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/950369
推荐阅读
相关标签
  

闽ICP备14008679号