当前位置:   article > 正文

未登录词(Out Of Vocabulary)识别

未注册词识别

有人问道:南京市长叫江大桥?

你怎么知道的?

因为看到一个标语——南京市长江大桥欢迎您。

未登录词识别问题也叫做:命名实体识别(Named Entity Recognition)

  1. 常见的未登录词包括:
  2. 复制代码

人名:张三、陈方安生

地名:安湖路、龙腾苑四区

机构名:泰康人寿、欧姆龙公司

译名:安德森

组块识别(Chunking) 切分和标注多个词的单元

每个大的单元叫做组块(chunk)

用模式识别未登录词 例如“高东镇高东二路”,需要把“高东二路”这样不在词典中的路名识别出来。可以先把输入串抽象成待识别的标注序列,然后根据词类识别。例如:

利用模式来识别未登录街道名,识别规则可以表示成如下的形式:

镇后缀 未登录街道 =>镇后缀 UNKNOW 号码 街后缀

识别规则(Product) lhs = new ArrayList(); //左边的模式 rhs = new ArrayList(); //右边的模式 //镇后缀 UNKNOW 号码 街后缀 rhs.add(AddressType.SuffixTown); rhs.add(AddressType.Unknow); rhs.add(AddressType.No); rhs.add(AddressType.SuffixStreet); //镇后缀 未登录街道 lhs.add(new AddressSpan(1,AddressType.SuffixTown));//归约长度是1 //把“UNKNOW 号码 街后缀”3个符号替换成“未登录街道”

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/451838
推荐阅读
相关标签
  

闽ICP备14008679号