赞
踩
from fuzzywuzzy import fuzz
from fuzzywuzzy import process
>>> fuzz.ratio("西藏 自治区", "自治区 西藏") 50 >>> fuzz.partial_ratio("西藏 自治区", "自治区 西藏") 50 >>> fuzz.ratio('I love YOU','YOU LOVE I') 30 >>> fuzz.partial_ratio('I love YOU','YOU LOVE I') 30 >>> fuzz.token_sort_ratio("西藏 自治区", "自治区 西藏") 100 >>> fuzz.token_sort_ratio('I love YOU','YOU LOVE I') 100 >>> fuzz.ratio("西藏 西藏 自治区", "自治区 西藏") 40 >>> fuzz.token_sort_ratio("西藏 西藏 自治区", "自治区 西藏") 80 >>> fuzz.token_set_ratio("西藏 西藏 自治区", "自治区 西藏") 100
process.extract
或process.extractOne
方法,可以在针对一个字符串,在一个list
字符串中找出相似的。不同的是process.extract
可以通过limit
设置返回的匹配数量,extractOne
则仅能返回一个。上述关键方法,可以通过scorer
参数来设置。
>>> choices = ["河南省", "郑州市", "湖北省", "武汉市"]
>>> process.extract("州", choices, limit=2)
[('郑州市', 90), ('河南省', 0)]
>>> process.extractOne("州", choices)
('郑州市', 90)
>>> choices = ["河南省", "郑州市", "湖北省", "武汉市"]
>>> process.extract("州郑 ", choices, limit=2)
[('郑州市', 45), ('河南省', 0)]
>>> process.extractOne("州郑 ", choices)
('郑州市', 45)
>>> process.extract("州郑 ", choices, limit=2, scorer=fuzz.token_set_ratio)
[('郑州市', 40), ('河南省', 0)]
>>> process.extractOne("州郑 ", choices, scorer=fuzz.token_set_ratio)
('郑州市', 40)
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。