【每周一文】Natural Language Processing (almost) From Scratch

作者：笔触狂放9 | 2024-03-20 01:08:09

踩

natural language processing (almost) from scratch

概述

本文介绍了一个统一的神经网络架构用于解决自然语言处理各种的各种任务，主要是序列标注任务，包括词性标注（POS）、词语组块分析（Chunking）、命名实体识别（NER）以及语义角色标注（SRL）等。本文主要介绍如何构建这个统一的神经网络以及如何运用一些技巧去提高效果，结论是不需要特殊构建特征工程就可以得到State-of-art结果。

统一标识

为方面后续介绍，提前介绍各类标识。
NN：神经网络
前向神经网络: $f_\theta(.)=f_\theta^L(f_\theta^{L-1}(...f_\theta^1(.)...))$
矩阵A中的值: $[A]_{i,j}$
矩阵A中的列组合成的向量:<script type="math/tex" id="MathJax-Element-7">_i^{d_win}</script>表示第i列附件的d列组合而成的向量， $[A_i^{d_win}]^T=([A]_{1,i-d_win/2}...[A]_{d1,i-d_win/2},...,[A]_{1,i+d_win/2}...[A]_{d1,i+d_win/2})$

即d个列向量按照从前到后拼接成一个列向量。
向量x中的某个元素 $[x]_i$
一个向量集合: ${x_1,x_2,...,x_{T}}$ 表示为 $[x]_1^T$

神经网络构建

词向量构建

将一个词表示为一个向量，即表示为连续空间中的一个点，而不是最原始的ont-hot表示。
1. 每一个词表示为一个向量存储在表中供查询，lookup table（LW），对于每个词向量为 $LT_W(w)=<W>_w^1$ 即大表中的第w列。其中 $W \in R^{d_wrd*|D|}，其中d表示词向量长度，D表示词空间$
2. 对于一个输入序列可以表示一个矩阵 $LT_W([w]_1^T) = (<W>_{w1}^1 \ ... \ <W>_{wT}^1)$
3. 对于任何离散型特征可以进行扩展，如果每个词有多个离散特征，则每一个

声明：本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】