赞
踩
以下学习笔记来源于 Coggle 30 Days of ML(22年1&2月)
链接:https://coggle.club/blog/30days-of-ml-202201
比赛链接:https://aistudio.baidu.com/aistudio/competition/detail/45/0/task-definition
文本相似度旨在识别两段文本在语义上是否相似。文本相似度在自然语言处理领域是一个重要研究方向,同时在信息检索、新闻推荐、智能客服等领域都发挥重要作用,具有很高的商业价值。
目前学术界的一些公开中文文本相似度数据集,在相关论文的支撑下对现有的公开文本相似度模型进行了较全面的评估,具有较高权威性。
因此,本开源项目收集了这些权威的数据集,期望对模型效果进行综合的评价,旨在为研究人员和开发者提供学术和技术交流的平台,进一步提升文本相似度的研究水平,推动文本相似度在自然语言处理领域的应用和发展。
本次评测的文本相似度数据集包括公开的三个文本相似度数据集,分别为哈尔滨工业大学(深圳)的 LCQMC 和 BQ Coupus,以及谷歌的 PAWS-X(中文)。各数据集的简介如下:
LCQMC
LCQMC(A Large-scale Chinese Question Matching Corpus), 百度知道领域的中文问题匹配数据集,目的是为了解决在中文领域大规模问题匹配数据集的缺失。该数据集从百度知道不同领域的用户问题中抽取构建数据。
BQ Corpus
BQ Corpus(Bank Question Corpus), 银行金融领域的问题匹配数据,包括了从一年的线上银行系统日志里抽取的问题pair对,是目前最大的银行领域问题匹配数据。
PAWS-X (中文)
PAWS (Paraphrase Adversaries from Word Scrambling),谷歌发布的包含 7 种语言释义对的数据集,包括PAWS(英语) 与 PAWS-X(多语)。数据集里包含了释义对和非释义对,即识别一对句子是否具有相同的释义(含义),特点是具有高度重叠词汇,对于进一步提升模型对于强负例的判断很有帮助。
各个数据集的任务均一致,即判断两段文本在语义上是否相似的二分类任务:
导入pandas:
import pandas as pd
加载数据集:
bq_train=pd.read_csv('./bq_corpus/train.tsv',sep='\t',
names=['text1','text2','label'],
error_bad_lines=False)
lcqmc_train=pd.read_csv('./lcqmc/train.tsv',sep='\t',
names=['text1','text2','label'])
pawsx_train=pd.read_csv('./paws-x-zh/train.tsv',sep='\t',
names=['text1','text2','label'])
在加载 bq_corpus/train.tsv
数据的时候发现报错:
ParserError: Error tokenizing data. C error: Expected 3 fields in line 20746
pandas是按照第0行的列长度来读取,然后后面某些行的列长度超出了就会出现报错,我们将这几行数据去掉,因此加上
error_bad_lines=False
观察部分数据:
label为1代表text1和text2相似,否则不相似。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。