[x]
span翻译成“文段”。Cambridge dictionary的定义是:the length of something from one end to the other,所以在一段文本里,就是连续的若干token (usually represented as word in English or character in Chinese) ,
通常在NLP中所说的SPAN指的是一个片段,如图所示的span指的是位置2-4(包含)对应的“中国人”这个文本片段。
四、ELMo:
ELMo是一种在词向量(vector)或词嵌入(embedding)中表示词汇的新方法。是基于deep- BLSTM的方法,双向双层LSTM (Embeddings from Language Models)feature-based.其中的每一层都包含前向和后向两个LSTM层,
宅家NLP —— 词向量与ELMo
GPT 最大的问题就是传统的语言模型是单向的;我们根据之前的历史来预测当前词。但是我们不能利用后面的信息。比如句子 The animal didn’t cross the street because it was too tired。我们在编码 it 的语义的时候需要同时利用前后的信息,因为在这个句子中,it 可能指代 animal 也可能指代 street。根据 tired,我们推断它指代的是 animal。但是如果把 tired 改成 wide,那么 it 就是指代 street 了。Transformer 的 Self-Attention 理论上是可以同时关注到这两个词的,但是根据前面的介绍,为了使用 Transformer 学习语言模型,必须用 Mask 来让它看不到未来的信息,所以它也不能解决这个问题。
十四、Gelu激活函数(gaussian error linear units)就是我们常说的高斯误差线性单元,它是一种高性能的神经网络激活函数,因为gelu的非线性变化是一种符合预期的随机正则变换方式。xP(X≤x)=xΦ(x)====>>>xσ(1.702x)
概率P ( X ≤ x ) P(X\leq x)P(X≤x)(x xx可看成当前神经元的激活值输入),即X XX的高斯正态分布ϕ ( X ) \phi(X)ϕ(X)的累积分布Φ ( x ) \Phi(x)Φ(x)是随着x xx的变化而变化的,当x xx增大,Φ ( x ) \Phi(x)Φ(x)增大,当x减小,Φ ( x ) \Phi(x)Φ(x)减小,即当x xx越小,在当前激活函数激活的情况下,越有可能激活结果为0,即此时神经元被dropout,而当x xx越大越有可能被保留。
十五、EM(Exact Match)是 问答系统 的一种常见的评价标准,它用来评价 预测中 匹配到正确答案(ground truth answers)的百分比。是SQuAD的主要衡量指标。