赞
踩
EntityRuler是一个spaCy管道组件,可以通过基于patterns字典添加命名实体,能够方便基于规则和统计方式的命名实体识别方法相结合,从而实现功能更强大的spaCy管道。
实体patterns是一个字典,包含两个键:“label”,指定模式匹配时的实体标签,“pattern”,匹配模式。EntityRuler接受两种类型的pattern:
{
"label": "PROPER_N", "pattern": "喘振区"}
{
"label": "T", "pattern": [{
"POS": "NOUN", "OP":"?"},{
"POS": "NOUN"}, {
"ORTH": "温度"}]}
#对于例句: "冷渣器内部冷却水管泄漏造成灰渣板结。轴承绝缘击穿,电机漏磁电流通过轴承造成油膜破坏。"
#其结果为:轴承温度,盘根温度,电机线圈温度
EntityRuler是一个spaCy管道组件,通常通过nlp.add_pipe添加到spaCy管道。 当对文本调用nlp对象时,会在doc中找到匹配项,将其作为实体添加到doc.ents,并使用指定的pattern标签作为实体标签。如果有匹配项存在重叠,则以长度优先的模式匹配。等长时,则选择文档中先出现的匹配项。
nlp = spacy.load("zh_core_web_sm")
user_dict = get_user_dict('c:/user_dict.txt')
nlp.tokenizer.pkuseg_update_user_dict(user_dict)
ruler = nlp.add_pipe('entity_ruler')
patterns = [{
"lab
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。