当前位置:   article > 正文

文本匹配学习_文本匹配nlp

文本匹配nlp
文本语义匹配是自然语言处理中一个重要的基础问题,NLP 领域的很多任务都可以抽象为文本匹配任务。例如,信息检索可以归结为查询项和文档的匹配,问答系统可以归结为问题和候选答案的匹配,对话系统可以归结为对话和回复的匹配。语义匹配在搜索优化、推荐系统、快速检索排序、智能客服上都有广泛的应用。如何提升文本匹配的准确度,是自然语言处理领域的一个重要挑战。

文本匹配的主要用途:

  • 信息检索:在信息检索领域的很多应用中,都需要根据原文本来检索与其相似的其他文本,使用场景非常普遍。

  • 新闻推荐:通过用户刚刚浏览过的新闻标题,自动检索出其他的相似新闻,个性化地为用户做推荐,从而增强用户粘性,提升产品体验。

  • 智能客服:用户输入一个问题后,自动为用户检索出相似的问题和答案,节约人工客服的成本,提高效率。

任务一 数据集读取

本次使用到的数据集是LCQMC(Large-scale Chinese Question Matching Corpus)

这是一个大规模的中文文本匹配数据集, 其包含超过 400,000 个标记为重复或非重复的问题对。该数据集由中国科学院自动化研究所(CASIA)深度学习技术与应用国家工程实验室(NEL-DLT)创建。

使用到python的扩展程序库 pandas

读取数据集

  1. import pandas as pd
  2. def load_lcqmc():
  3. '''LCQMC文本匹配数据集
  4. '''
  5. train = pd.read_csv('https://mirror.coggle.club/dataset/LCQMC.train.data.zip',
  6. sep='\t', names=['query1', 'query2', 'label'])
  7. valid = pd.read_csv('https://mirror.coggle.club/dataset/LCQMC.valid.data.zip',
  8. sep='\t', names=['query1', 'query2', 'label'])
  9. test = pd.read_csv('https://mirror.coggle.club/dataset/LCQMC.test.data.zip',
  10. sep='\t', names=['query1', 'query2', 'label'])
  11. return train, valid, test

数据读取结果可选择部分查看

数据读取结果可选择部分查看

数据读取结果可选择部分查看

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小小林熬夜学编程/article/detail/484669
推荐阅读
相关标签
  

闽ICP备14008679号