赞
踩
在自然语言处理(Natural Language Processing, NLP)中,经常会涉及到如何度量两个文本的相似度问题。在诸如对话系统(Dialog system)和信息检索(Information retrieval)等的问题中,如何度量句子或者短语之间的相似度尤为重要。
度量文本相似度包括如下三种方法:一是基于关键词匹配的传统方法,如N-gram相似度;二是将文本映射到向量空间,再利用余弦相似度等方法;三是深度学习的方法,如基于用户点击数据的深度学习语义匹配模型DSSM,基于卷积神经网络的ConvNet,以及目前state-of-art的Siamese LSTM等方法。
最近工作中碰到1个问题,需要对下表中B列和G列的小区中文名称计算相似程度,可以采用Python的difflib包来方便地实现估计。
根据difflib的帮助文档的介绍,其ratio方法的计算定义如下:
Where T is the total number of elements in both sequences, and
M is the number of matches, this is 2.0*M / T.Note that this is 1 if the sequences are identical, and 0 ifthey have nothing in common.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。