当前位置:   article > 正文

NLP语义分析 之 “买的不如卖的精”_hanlp进行语义分析

hanlp进行语义分析

NLP语义分析 之 “买的不如卖的精”

转载请注明出处https://blog.csdn.net/hong4shuai/article/details/82916101

这是一句再正常不过的口头语,如何该让机器能听懂其中语义呢?或者说当前的技术到底能理解到哪一些语义呢?(那些说RNN/LSTM的请绕道去隔壁家)

一、分词:
jieba分词:买/的/不如/卖/的/精
Hanlp分词:买/的/不如/卖/的/精
哈工大LTP分词:官网有bug,http://ltp.ai/demo.html ,没动词的句子分不出来
Stanford分词:买的/不如 /卖/ 的/ 精

二、词性标注:
(1)jieba:
[pair(‘买’, ‘v’), pair(‘的’, ‘uj’), pair(‘不如’, ‘c’), pair(‘卖’, ‘v’), pair(‘的’, ‘uj’), pair(‘精’, ‘n’)]
(2)Stanford NLP:
在这里插入图片描述
(3)Hanlp:
在这里插入图片描述
注:每家的词性标注代号都不一样,每家的效果也不尽相同,有所出入。

三 、先了解一下“如”的含义
在线汉语字典给的解释,http://xh.5156edu.com/html3/6350.html 查询可知,可用作动词、介词、助词、连词。在此例句,“如”应该是介词,做状语。
在这里插入图片描述

四、依存句法分析:
“买的不如卖的精”,这是一句缩略语,省略了很多的句法成分和语义成分。我们把它成分补充完整后,看看对应的分析。
A,原句:“买的不如卖的精”
B,添加一个局部宾语:“买(东西)的不如卖(东西)的精”
C,添加一个局部中心语:“买的(人)不如卖的(人)精”
D,同时添加局部宾语和局部中心语:“买(东西)的(人)不如卖(东西)的(人)精”

对于A句“买的不如卖的精”
(a)Hanlp:
在这里插入图片描述
(b)Stanford NLP:
在这里插入图片描述
(c)哈工大LTP:
官网竟然不能给出解析,这明显是个bug。后来发现未识别到句子的动词,都不能给出返回。

对于B句“买(东西)的不如卖(东西)的精”
(a)Hanlp:
在这里插入图片描述
(b)Stanford NLP:
在这里插入图片描述
(c)哈工大LTP:
在这里插入图片描述
释:(a)中“不如”被识别为动词,导致词性和句法混乱,出现“买不如精”的主谓宾结构。(b)中“卖”被识别为全句动词,导致词性和句法混乱,出现“买卖精”的主谓宾结构。©中“买东西”被识别为一个词,由于“不如”被识别为动词,造成了主谓宾结构“买东西不如精”。

对于C句“买的(人)不如卖的(人)精”
(a)Hanlp:
在这里插入图片描述
(b)Stanford NLP:
在这里插入图片描述
(c)哈工大LTP:
在这里插入图片描述
释:这里三个工具全部解析出错:(1)把“买/卖”当做全句的动词,(2)出现了“人精”,(3)Hanlp没有出现“人精”,但是依存句法错误,主谓关系不合语义,把“卖”字当作动词,出现“人卖人”的语义。

对于D句“买(东西)的(人)不如卖(东西)的(人)精”
(a)Hanlp:
在这里插入图片描述
(b)Stanford NLP:
在这里插入图片描述
(c)哈工大LTP:
在这里插入图片描述
释:©分词错误,(a)(b)词性错误,依存句法错误都出现了。

综上所述:
个人理解是“买(东西)的(人)”作主语;“不如”作动词,意为比不过、不能超过;然后短语“卖(东西)的(人)精”整体作宾语,整个句子形成一个主谓宾结构。(求你别抬杠说你们那口语里有“人精”)
以下是个人手写的句法分析树,有问题欢迎指出:
在这里插入图片描述

五、依存语义分析:
到底什么是语义?大致可以个人理解为语境,知识,知识逻辑结构。
首先了解一下“精”到底是什么意思?查在线字典 http://xh.5156edu.com/html3/17001.html
此处的“精”很明显指精明、聪明,是形容词做谓语,并且是“精明”的简称。而不是名词“精英”的简称,也不是形容词“精干”的简称,也不是副词“精光”的简称。
在这里插入图片描述

这里有个博客讲述了语义依存分析的一些规则,这里列举了几十种语义依存的关系。 https://blog.csdn.net/xiaocong1990/article/details/73302072

我们从“精”字反推,这是一个形容人的词语,偶有形容动物,都是具有思想意识的主体。你不会认为“这个电脑很精明”,“这里天气很精明”,符合语法,但没有实际语义。

从这篇博客里可以查到,这个“精”字应该是一种描写角色(description),说的通俗一点,就是属性关系(attribution),再细分一下,这是一种只有生物才有的属性,而不是别的实体所具有的属性,这个关系我认为只有从知识图谱中获取。所以我们应该建立非常强大的知识图谱。

假设我们可以从知识图谱总获取这种属性,这个“精”在主体应该是人,或者其他生物体。(如果现实世界中,有其他实体也可以有“精”这种意识属性,应该添加到知识图谱中。)此时,回到最开始的分词,从这种主体-属性关系或规则,反向约束分词,必然能大大提升分词准确性。同理,从这种主体-属性关系或规则和已有的句法规则,反向分析句法结构,必定也能大大的提升句法分析的准确度。

因此,个人观点,我认为分词、词性标注、依存句法分析、依存语义分析非常依赖知识图谱,并且互相依赖。

声明:本文内容由网友自发贡献,转载请注明出处:【wpsshop博客】
推荐阅读
相关标签
  

闽ICP备14008679号