text matching_text-matching 多少不通过

作者：从前慢现在也慢 | 2024-05-02 07:53:47

踩

text-matching 多少不通过

本文章记录关于text matching相关文章的记录：
前提概述：
text matching是一种端到端的文本匹配的算法，主要用与搜索引擎，问答系统等，主要是为了找到与目标文本最相关的文本。如和问题最相关的答案，在搜索引擎中找到与搜索框中关键词最相关的网页等。

MatchPyramid
文章来源：Text Matching as Image Recognition
主要方法：构建文本与文本的相似矩阵，采用CNN对矩阵进行score，score越高的值对应的文本与文本直接相关性越高。
算法架构：输入：两个文本。
1）基于glove得到两文本的每个词的embedding。
2）构建两个文本的相似矩阵。
3）把相似矩阵放入两层CNN中。
4）把CNN的结果放入两层的感知机中。
5）获得二分类的score。
相似矩阵的构建方法：
法1：构建Indicator function：

\begin{aligned} M_{i j} = {\begin{cases} 1 & if w_{i} = v_{j} \\ 0 & otherwise \end{cases} \end{aligned}

$\begin{align} M_{ij} = \begin{cases} 1 & \text{if $w_i = v_j$ } \\ 0 & \text{otherwise} \end{cases} \end{align}$
法2：构建词向量

α_{i}, β_{j}

$\alpha_i, \beta_j$ 表示

w_{i}

$w_i$ 和

v_{j}

$v_j$ 则采用余弦相似性或者点乘的方式表达M即：

\begin{aligned} M_{i j} = \frac{{\vec{α}}^{T} \vec{β}}{| | \vec{α} | | \cdot | | \vec{β} | |} \end{aligned}

$\begin{align} M_{ij} = \frac{\vec{\alpha}^T\vec{\beta}}{||\vec{\alpha}|| \cdot ||\vec{\beta}||} \end{align}$

\begin{aligned} M_{i j} = {\vec{α}}^{T} \vec{β} \end{aligned}

$\begin{align} M_{ij} = \vec{\alpha}^T\vec{\beta} \end{align}$

DRMM(deep relevance matching model)
文章来源A Deep Relevance Matching Model for Ad-hoc Retrieval

point1: 现在的基于deep的文本匹配的大致模型如下：

\begin{aligned} m a t c h (T_{1}, T_{2}) = F (ϕ (T_{1}), ϕ (T_{2})) \end{aligned}

$\begin{align} match(T_1,T_2) = F(\phi(T_1),\phi(T_2)) \end{align}$

其中， $\phi$ 是关于text的映射函数，通过 $\phi$ 可以把text进行向量化表示。<script type="math/tex" id="MathJax-Element-1200">F</script>函数是对映射之后两文本关联性的打分。

主要方法：主要用于问答相关的长短文本匹配，在进行匹配之前，先对问题文本即短文本进行重构，把embed的向量重构之后得到文本新的表征，再进行匹配。
算法架构：1）query 和 document embedding
2）对query的embedding进行重构
3）query

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/从前慢现在也慢/article/detail/522965