赞
踩
目录
下载模型到本地(如果你的网络能直接从huggingface上拉取文件,可跳过)
在上一篇文章中介绍了,如何从不同格式的文件里提取文本信息。
本篇文章将介绍,如何将提取出的文本信息转换为vector,以便后续基于vector做相似性检索。
文档向量化工具(一):Apache Tika介绍https://mp.csdn.net/mp_blog/creation/editor/134488150
text2vec是github上很受欢迎的一个开源项目。
text2vec:Text to Vector。
【GitHub地址】
https://github.com/shibing624/text2vec
【开源协议】
Apache-2.0 license
Text to Vector, Get Sentence Embeddings. 文本向量化,把文本(包括词、句子、段落)表征为向量矩阵。
text2vec实现了:
等多种文本表征、文本相似度计算模型,并在文本语义匹配(相似度计算)任务上比较了各模型的效果。
推荐用conda管理python环境
conda create -n py3.9 python=3.9 // 安装一个python3.9的环境
conda install -c pytorch pytorch
pip install -U text2vec
https://huggingface.co/shibing624/text2vec-base-chinese/tree/main
本地建立一个文件夹,名字是shibing624/text2vec-base-chinese
手动点击,逐个下载文件到此文件夹
- # 设置huggingface以offline模式运行,从本地加载我们刚才下载的模型数据
- HF_DATASETS_OFFLINE=1 TRANSFORMERS_OFFLINE=1
- from text2vec import SentenceModel
-
- m = SentenceModel(model_name_or_path='/xxxxxxxx绝对路径xxxxxxx/shibing624/text2vec-base-chinese')
-
- m.encode("如何更换花呗绑定银行卡")
运行效果
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。