赞
踩
文本语义匹配是自然语言处理中一个重要的基础问题,NLP 领域的很多任务都可以抽象为文本匹配任务。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。语义匹配在搜索优化、推荐系统、快速检索排序、智能客服上都有广泛的应用。如何提升文本匹配的准确度,是自然语言处理领域的一个重要挑战。
文本匹配的主要用途:
信息检索:在信息检索领域的很多应用中,都需要根据原文本来检索与其相似的其他文本,使用场景非常普遍。
新闻推荐:通过用户刚刚浏览过的新闻标题,自动检索出其他的相似新闻,个性化地为用户做推荐,从而增强用户粘性,提升产品体验。
智能客服:用户输入一个问题后,自动为用户检索出相似的问题和答案,节约人工客服的成本,提高效率。
本次使用到的数据集是LCQMC(Large-scale Chinese Question Matching Corpus)
这是一个大规模的中文文本匹配数据集, 其包含超过 400,000 个标记为重复或非重复的问题对。该数据集由中国科学院自动化研究所(CASIA)深度学习技术与应用国家工程实验室(NEL-DLT)创建。
使用到python的扩展程序库 pandas
读取数据集
- import pandas as pd
- def load_lcqmc():
- '''LCQMC文本匹配数据集
- '''
- train = pd.read_csv('https://mirror.coggle.club/dataset/LCQMC.train.data.zip',
- sep='\t', names=['query1', 'query2', 'label'])
-
- valid = pd.read_csv('https://mirror.coggle.club/dataset/LCQMC.valid.data.zip',
- sep='\t', names=['query1', 'query2', 'label'])
-
- test = pd.read_csv('https://mirror.coggle.club/dataset/LCQMC.test.data.zip',
- sep='\t', names=['query1', 'query2', 'label'])
-
- return train, valid, test
数据读取结果可选择部分查看
数据读取结果可选择部分查看
数据读取结果可选择部分查看
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。