NLP 之词的表示与语言模型

作者：盐析白兔 | 2024-08-08 23:29:43

踩

NLP 之词的表示与语言模型

表示的基本原理：

机器无法理解文字，却能进行复杂的数学运算——神经网络只要够深、够复杂，就能拟合足够复杂的数学模式。把文字嵌入（embed）到一个向量空间中去。

词表示（Word Representation）分为4代

基本原理：

假设中文字典有n个词元，那么第i（i=1,2,3,...,n）个词元的编码为一个长度为n的向量，它的第i位为1，其他为0。独热编码实现了对文本的向量化嵌入。

问题：

第一，向量的维度太长了，文本的表示过于稀疏；

第二，词向量与词向量之间完全正交，不具有相关性。

2.词频-逆文档词频（Term Frequency-Inverse Term Frequency, TF-IDF）

根据Zipf's Law，在给定的自然语言语料库中，任何一个词的频率与它在频率表中的排名成反比。

它对每一个词生成一个相同的词表示，不考虑同一个词在不同语境下含义的差别。

连续词袋法：

用一个浅层神经网络，依次遮住句子中的每一个词，然后用它的上下文来预测它

跳元法：

我们用一个k元词组来预测它的上下文

自监督预训练:

通过“破坏”句子的一部分，让模型预测它，从而实现对词的更精确的表示.

语言的多义性是人类自然语言的重要特点。

BERT考虑了三层嵌入：词嵌入、位置嵌入（词在句子中的位置）和句子嵌入，并把它们加起来作为最后的嵌入表示。

BERT使用WordPiece分词器（tokenizer），借鉴了自监督训练的思想，在两个任务上进行预训练：下句预测（Next Sentence Prediction）和掩码语言建模（Masked Language Modeling）。

下句预测是一个二分类任务：给定一个句子，判定另一个句子是否是它的下一句；

掩码语言建模任务随机掩盖其中15%的单词，并训练模型来预测被掩盖的单词，为了预测被掩盖的单词，模型从两个方向阅读该句并进行预测。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/盐析白兔/article/detail/950354