从零开始实现大语言模型（三）：Token Embedding与位置编码

作者：秋刀鱼在做梦 | 2024-08-05 20:01:04

踩

token embedding

1. 前言

Embedding是深度学习领域一种常用的类别特征数值化方法。在自然语言处理领域，Embedding用于将对自然语言文本做tokenization后得到的tokens映射成实数域上的向量。

本文介绍Embedding的基本原理，将训练大语言模型文本数据对应的tokens转换成Embedding向量，介绍并实现OpenAI的GPT系列大语言模型中将tokens在文本数据中的位置编码成Embedding向量的方法。

2. Embedding

Embedding是指将类别特征(categorical feature)映射到连续向量空间中，即使用实数域上的向量表示类别特征。其中，向量的长度是超参数，必须人为设定。向量中每一个元素的值，均是模型的参数，必须从训练数据中学习获得，即通过大量数据训练，模型自动获得每一个类别特征该被表示成一个怎样的向量。

Deep Learning is all about “Embedding Everything”.

Embedding的核心思想是将离散对象映射到连续的向量空间中，其主要目的是将非数值类型的数据转换成神经网络可以处理的格式。

Embedding向量维度的设定并没有精确的理论可以指导，设定的原则是：Embedding向量表示的对象包含的信息越多，则Embedding向量维度应该越高；训练数据集越大，Embedding向量维度可以设置得更高。在大语言模型出现前，深度学习自然语言处理领域，一般Embedding向量的维度是8维（对于小型数据集）到1024维（对于超大型数据集）。更高维度得Embedding向量可以捕获特征对象之间更精细的关系࿰

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/秋刀鱼在做梦/article/detail/934007