当前位置:   article > 正文

[原创]python计算中文文本相似度神器_paraphrase-multilingual-minilm-l12-v2

paraphrase-multilingual-minilm-l12-v2

介绍

最近因为工作需要,需要使用一个功能,就是中文文本相似度的计算。属于nlp领域的一个应用吧,这里找到一个非常好的包和大家分享。这个包叫sentence-transformers

这里给大家介绍,如何使用这个包对中文文本做相似度计算(这个包的其中一个小用途罢了)

  1. 这里使用的模型是paraphrase-multilingual-MiniLM-L12-v2模型,因为paraphrase-MiniLM-L6-v2模型已经非常好了,paraphrase-multilingual-MiniLM-L12-v2paraphrase-MiniLM-L6-v2模型的多语言版本,速度快,效果好,支持中文!

  2. 这里计算相似度的方法是使用的余弦相似度。

使用步骤

  1. 第一步先安装这个包,可以直接使用pip安装:
pip install sentence-transformers
  • 1
  1. 导入包
import sys
from sentence_transformers.util import cos_sim  
from sentence_transformers import SentenceTransformer as SBert
  • 1
  • 2
  • 3
  1. 使用模型
model = SBert('paraphrase-multilingual-MiniLM-L12-v2')
  • 1

因为在中国境内,访问一些模型网站,可能会失败,出现这样的结果:

HTTPSConnectionPool(host='huggingface.co', port=443): Max retries exceeded with url: /api/models/sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2 (Caused by SSLError(SSLError(1, '[SSL: WRONG_VERSION_NUMBER] wrong version number (_ssl.c:1129)')))
  • 1

那么我们就可以换成这样的方法:先去下载模型,然后解压到文件夹中,然后直接传递这个文件夹路径就行了。

先去模型网站下载模型:模型网站链接为:https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/

然后查找paraphrase-multilingual-MiniLM-L12-v2这个模型名字,点击下载即可。

然后将这个模型解压到paraphrase-multilingual-MiniLM-L12-v2文件夹。然后再将这个文件夹路径放到下面的模型即可。


model = SBert("C:\\Users\xxxx\Downloads\\paraphrase-multilingual-MiniLM-L12-v2")
  • 1
  • 2
  1. 计算结果

下面的内容就很简单了,传递了两个list,分别对每个list里面的文本做encode,然后再计算余弦相似度,最后输出结果。


# Two lists of sentences
sentences1 = ['如何更换花呗绑定银行卡',
              'The cat sits outside',
              'A man is playing guitar',
              'The new movie is awesome']

sentences2 = ['花呗更改绑定银行卡',
              'The dog plays in the garden',
              'A woman watches TV',
              'The new movie is so great']

# Compute embedding for both lists
embeddings1 = model.encode(sentences1)
embeddings2 = model.encode(sentences2)

# Compute cosine-similarits
cosine_scores = cos_sim(embeddings1, embeddings2)
cosine_scores
  • 1
  • 2
  • 3
  • 4
  • 5
  • 6
  • 7
  • 8
  • 9
  • 10
  • 11
  • 12
  • 13
  • 14
  • 15
  • 16
  • 17
  • 18
  • 19

感想

我其实刚开始打算就是使用text2vec这个包的,我感觉这个包写的挺好的,非常强大。我于是想看看他这个包的源码,打开源码的一瞬间,我都惊呆了,没想到代码写的这么干净漂亮。

可是我后来细看才知道,竟然跳转到sentence-transformers包了

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小蓝xlanll/article/detail/583746?site
推荐阅读
相关标签