赞
踩
本专栏包括AI应用开发相关内容分享,包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧
适用于具备一定算法及Python使用基础的人群
python——人工智能——NLP——应用开发的应用之一:
中文文本相似度计算
总计两个步骤:
1.文本向量化:使用已训练好的
paraphrase-multilingual-MiniLM-L12-v2模型(速度快,效果好,支持中文)
在
sentence-transformers框架
下实现
2.计算相似度:使用
余弦相似度
配置环境 下载框架
pip install sentence-transformers -i https://pypi.tuna.tsinghua.edu.cn/simple
代码使用
# 文本相似度计算
import sys
from sentence_transformers.util import cos_sim
from sentence_transformers import SentenceTransformer as SBert
model = SBert("C:\\...\\...\\paraphrase-multilingual-MiniLM-L12-v2")
embedding1 = model.encode('如何更换花呗绑定银行卡')
embedding2 = model.encode('花呗更改绑定银行卡')
cosine_score = cos_sim(embedding1, embedding2)
cosine_score
离线模型下载
可见上述代码需要下载文本向量化模型:
paraphrase-multilingual-MiniLM-L12-v2
下载地址:
https://public.ukp.informatik.tu-darmstadt.de/reimers/sentence-transformers/v0.2/
转到该网站后,ctrl+F搜索模型名称即可下载。
下载后解压zip文件到指定路径,代码中修改模型文件绝对路径即可加载模型进行文本向量化及相似度计算!
完结,撒花!
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。