知新_RL

这个屌丝很懒，什么也没留下！

热门标签

AI测试入门：认识AI大模型中的Token_ai训练中的token是什么

作者：知新_RL | 2024-08-08 23:34:13

踩

ai训练中的token是什么

AI测试入门：AI大模型的Token

前言

在人工智能和自然语言处理的领域中，“Token”是一个基础且至关重要的概念。然而，对于这个术语的翻译，各有不同的见解，包括“标记”、“词”和“令牌”。本文将详细探讨在大语言模型中，Token的含义、作用、不同的Tokenization技术，以及如何有效地理解和应用Token。

什么是Token？

Token是大语言模型中用来表示文本片段的基本单位。它可以是一个汉字、一个英文单词、甚至是多个字符组成的序列。

Token在不同语言中的表现各异，例如，在汉语中，一个Token通常对应一个汉字，而在英语中，一个Token可能包含一个或多个单词。

对于汉语等字形语言，一个Token可能只包含一个字符，而对于英语等词素语言，一个Token可能包含一个或多个单词。

具体的Token数量和字符数之间的关系，取决于分词器的设计。

Token在大模型中的应用

大语言模型的训练语料数量、上下文限制以及生成速度等关键指标，都是用Token来表示的。以下是一些具体的应用实例：

训练数据量：例如，通义千问-7B使用超过2.4万亿Tokens的数据进行预训练。
上下文长度：模型后面带着8k、32k等标记，指的是在生成响应或进行预测时的最大文本长度。
生成速度：评估大模型生成速度的TPS（Token Per Second），即每秒输出Token的数量。

不同模型的每次输出Token上限

在实际应用中，不同的Tokenization技术和模型设计都会影响Token的表现。

GPT-3：每次输出的最大上限为2049个Token，可以写出约1000字的中文文章或1720字的英文文章。
GPT-4：每次输出的最大上限为32768个Token，约为16056个中文字或25000个英文字。
百度文心一言-3.0（ERNIE 3.0）：每次输出的最大上限为4096个Token，约为2048个中文字或3000个英文字。
阿里通义千问-7B（Tongyi Qianwen-7B）：每次输出的最大上限为8192个Token，约为4096个中文字或6000个英文字。

不同的Token数量上限意味着这些模型在处理和生成长文本时，能够保持较高的效率和准确性。这对于实际应用中的各种任务，例如机器翻译、文本生成和对话系统等，都是至关重要的。

Tokenization技术

Tokenization是将文本分割成Token的过程，这一过程对于捕捉文本的语义和句法结构至关重要。

目前，主要有以下几种Tokenization技术：

字节对编码（Byte Pair Encoding, BPE）

BPE是一种子词分词方法，它通过合并频繁出现的字符或子词对来构建词汇。GPT-3和GPT-4模型使用的就是这种方法。BPE在处理不同语言时的效率可能有所不同，但它具有良好的通用性。

子词级Tokenization

子词级Tokenization将单词拆分成更小的单元，适用于复杂语言和词汇。这种方法有助于处理未登录词和拼写变体，增强模型的泛化能力。

单词级Tokenization

单词级Tokenization是最基本的文本处理方法，每个单词都作为一个独立的Token。这种方法简单易行，但在处理复杂语言和词汇时存在局限性。

字节级Tokenization

字节级Tokenization将每个字节视为一个Token，适用于多语言任务。它能够处理不同语言的文本多样性，但可能会导致Token数量过多。

混合Tokenization

混合Tokenization结合了词级和子词级Tokenization的优点，平衡了细节和可解释性。它在实际应用中表现出较好的性能。

不同模型的Tokenization方法介绍

不同模型采用不同的Tokenization方法，这也影响了Token的具体含义和表现。

例如：

OpenAI模型

OpenAI在Tokenization方法上，OpenAI主要采用了字节对编码（Byte Pair Encoding, BPE）技术。

BPE：通过合并频繁出现的字符或子词对，构建一个包含常见片段的词汇表。这种方法能够有效减少词汇表的大小，提高模型的训练和生成效率。

这种方法使得OpenAI的模型能够在不同语言和文本长度下表现出色，同时确保较高的计算效率和准确性。

根据OpenAI的官方文档的介绍，1000个Token通常代表750个英文单词或500个汉字。每个Token大约为4个字符或0.75个单词。
OpenAI Token 计算器

百度文心一言

百度文心一言在Tokenization方法上采用了基于字节对编码（BPE）和WordPiece的混合技术。

BPE：通过合并频繁出现的字符或子词对，构建一个包含常见片段的词汇表。这种方法可以有效减少词汇表的大小，提高模型的训练效率。
WordPiece：类似于BPE，但在处理未登录词和长尾词时更加精细。WordPiece会将不在词汇表中的词进一步分解，直到所有部分都在词汇表中。

这种混合技术使得文心一言能够更好地处理不同语言的复杂性，同时保证较高的训练和生成效率。

百度文心一言Token计算器

阿里通义千问

阿里通义千问（Tongyi Qianwen）在Tokenization方法上也采用了字节对编码（BPE）和WordPiece的混合技术。

BPE：通过合并频繁出现的字符或子词对，构建一个包含常见片段的词汇表。这种方法能够有效减少词汇表的大小，提高模型的训练效率。
WordPiece：类似于BPE，但在处理未登录词和长尾词时更加精细。WordPiece会将不在词汇表中的词进一步分解，直到所有部分都在词汇表中。

这种混合技术使得通义千问能够更好地处理不同语言的复杂性，同时保证较高的训练和生成效率。

阿里通义千问Token计算器

总结

在大语言模型中，理解Token的定义和应用，以及各种Tokenization技术的差异，对于深入优化和掌握大语言模型至关重要。无论是选择适合的Tokenization方法，还是在实际应用中评估和优化Token的使用，都需要综合考虑语言的特性和具体任务的需求。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/知新_RL/article/detail/950369