赞
踩
文本相似度是指衡量两个文本的相似程度,通常我指语义的相似度。
TF-IDF(Term Frequency – Inverse Document Frequency)是一种用于信息检索与数据挖掘的常用加权技术,常用于挖掘文章中的关键词,而且算法简单高效,常被工业用于最开始的文本数据清洗。
TF-IDF 常在向量空间模型中与余弦相似度一起使用,以判断两份文本之间的相似度。
BM25 算法的全称为 Okapi BM25,是一种搜索引擎用于评估查询和文档之间相关程度的排序算法,其中 BM 是 Best Match 的缩写。
潜在语义分析(LSA, Latent Semantic Analysis)的核心思想是将文本的高维词空间映射到一个低维的向量空间,我们称之为隐含语义空间。
论文链接:《Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks》
paper : 《On the Sentence Embeddings from Pre-trained Language Models》
code : github/BERT-Flow
code:bert_whitening
【最佳方法】先做 SBERT,再进行Whitening。
对比学习包括:SimCSE、ConSERT、ESimCSE等。
论文链接:《SimCSE: Simple Contrastive Learning of Sentence Embeddings》
论文链接:《ConSERT: A Contrastive Framework for Self-Supervised Sentence Representation Transfer》
开源数据集包括:DIAC2019、CCKS2018_Task3、LCQMC、AFQMC、GAIIC2021_Task3、THS2021、CHIP2019、SOHU_2021、COVID19、PAWSX、XF2021、Chinese-MNLI、Chinese-SNLI、Chinese-STS-B、OCNLI、PKU Paraphrase Bank。
数据 | 原始数据/项目地址 | 原始数据描述 |
---|---|---|
DIAC2019 | 地址 | 基于Adversarial Attack的问题等价性判别比赛数据集 |
CCKS2018_Task3 | 地址 | CCKS 2018 微众银行智能客服问句匹配大赛 |
LCQMC | 地址 | 哈工大发表的一个中文问答匹配数据集 |
AFQMC | 地址 | 蚂蚁金融语义相似度数据集 |
GAIIC2021_Task3 | 地址 | 小布助手对话短文本语义匹配比赛数据集 |
THS2021 | 地址 | 同花顺2021人工智能大赛-跨领域迁移的文本语义匹配数据集 |
CHIP2019 | 地址 | 平安医疗科技疾病问答迁移学习比赛数据集 |
SOHU_2021 | 地址 | 2021搜狐校园文本匹配算法大赛数据集 |
COVID19 | 地址 | “公益AI之星”挑战赛-新冠疫情相似句对判定大赛数据集 |
PAWSX | 地址 | 多语言释义识别对抗性数据集 |
XF2021 | 地址 | 讯飞赛题—中文问题相似度挑战赛数据集 |
Chinese-MNLI | 地址 | 中文MNLI数据集 |
Chinese-SNLI | 地址 | 中文SNLI数据集 |
Chinese-STS-B | 地址 | 中文SNLI数据集 |
OCNLI | 地址 | 原生中文自然语言推理数据集,是第一个非翻译的、使用原生汉语的大型中文自然语言推理数据集。 |
PKU | 地址 | 句级中文文本复述语料库 |
CINLID | 地址 | 中文成语语义推理数据集 |
总样本数为 | 匹配样本个数 | 不匹配样本个数 |
---|---|---|
afqmc | 38650 | 11911 |
ccks2018_task3 | 100000 | 50000 |
chip2019 | 20000 | 10000 |
COVID-19 | 10749 | 4301 |
diac2019 | 100298 | 38446 |
gaiic2021_task3 | 177173 | 54805 |
lcqmc | 260068 | 149226 |
pawsx | 53401 | 23576 |
ths2021 | 41756 | 10478 |
xf2021 | 5000 | 2892 |
sohu_2021 | 69578 | 18714 |
cmnli | 404024 | 134889 |
csnli | 564339 | 188518 |
ocnli | 53387 | 17726 |
cstsb | 4473 | 401 |
pku | 509832 | 509832 |
清洗及格式转换后的数据,下载链接:百度云
提取码:rt6f
【请勿用于商用!!!】
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。