ALBERT 中文实战之文本相似度_基于albert的孪生网络

作者：IT小白 | 2024-06-21 16:37:39

踩

基于albert的孪生网络

ALBERT是一个比BERT要轻量，效果更好的模型，本篇实践介绍如何用ALBERT计算两个文本的相似度。

ALBERT利用词嵌入参数因式分解和隐藏层间参数共享两种手段，显著减少了模型的参数量的同时，基本没有损失模型的性能。笔者在下面的文章中详细介绍了ALBERT的理论，感兴趣的同学可以戳进去了解：《解读ALBERT》。

Pooling方法：

a. CLS:直接使用CLS的输出作为Embedding

b.MEAN: 平均所有token的输出作为Embedding

c. MAX:取每一维输出向量的最大值

目标函数：

a. 分类目标函数：

640?wx_fmt=png

其中 u 和 v 为两个句子的 Embedding，Wt为变换矩阵，最终的维度为3n*k，该目标函数可用于预训练Sentence Embedding

b. 回归目标函数：

该目标函数直接计算u和v的cosine相似度，将之均方误差作为loss。另外结构也是预测时候的计算方式

c. 三胞胎目标函数：

640?wx_fmt=png

其中Sa为句子a的Embedding，Sp则为句子p，句子p是跟a属于同一类型的正例句子，n 则是一个反例，三胞胎网络和孪生网络类似，这个目标函数是为了让正例距离尽量近而反例尽量远

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/IT小白/article/detail/743608?site