当前位置:   article > 正文

基于句法分析的评论观点提取技术

评论观点提取

1、概述

随着互联网特别移动互联网带给人们的便利性应用,越来越多的生活场景可以在线完成,比如,网上购物、网上政务、互联网娱乐等等,那么,很多应用场景都会开放平台和用户的交互,比如,浏览新闻是可以基于新闻内容阐述个人观点,网上购物时可以对购买的物品进行评价。
那么,用户的交互式评论对平台相关内容的改进起到很大作用,然而,随着应用的普及,海量交互式评论的分析成为一种挑战,如何对评论进行自动化观点抽取成为必不可少的需求。

2、句法分析

在此,针对观点抽取,本文阐述基于句法分析的一种实现技术,在介绍观点抽取技术之前,先来了解下句法分析的技术。
句法分析是自然语言处理(NLP)中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
  句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析(phrase structure parsing);另外一种是以获取局部成分为目的的句法分析,被称为依存分析(dependency parsing)。
首先,来看下句子个成分间存在哪些依存关系,下面的列表列出了了依存关系及举例:

Tag关系DescriptionExample
SBV主谓关系subject-verb我送她一束花 (我 <– 送)
VOB动宾关系直接宾语,verb-object我送她一束花 (送 –> 花)
IOB间宾关系间接宾语,indirect-object我送她一束花 (送 –> 她)
FOB前置宾语前置宾语,fronting-object他什么书都读 (书 <– 读)
DBL兼语double他请我吃饭 (请 –> 我)
ATT定中关系attribute红苹果 (红 <– 苹果)
ADV状中结构adverbial非常美丽 (非常 <– 美丽)
CMP动补结构complement做完了作业 (做 –> 完)
COO并列关系coordinate大山和大海 (大山 –> 大海)
POB介宾关系preposition-object在贸易区内 (在 –> 内)
LAD左附加关系left adjunct大山和大海 (和 <– 大海)
RAD右附加关系right adjunct孩子们 (孩子 –> 们)
IS独立结构independent structure两个单句在结构上彼此独立
WP标点符号punctuation标点符号
HED核心关系head指整个句子的核心

依存句法分析的前提假设:

(1)一个句子中只有一个成分是独立的,该成分定义为核心关系;
(2)句子的其他成分都从属于特定的成分 ;
(3)任何一个成分都不能依存于两个或两个以上的成分;
(4)如果成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分;
(5)中心成分左右两边的其他成分相互不发生关系;

3、观点抽取

评论观点的构成一般如下图所示,评论观点一般是由评论主体和评论主体的属性构成,比如:“手机外观漂亮”,评论主体是“手机外观”,评论主体的属性是“漂亮”。

评论观点
评论主体
评论主体属性

然而,评论主体和评论主体属性都是句法分析的成分,二者存在特定的依存关系,总结一套观点构成的规则集,结合句法依存关系实现评论观点的提取:

文本
句法依存关系
观点构成规则
评论观点

比如,针对文本“手机外观很漂亮”:

  • 句法依存分析结果
1   手机	手机	n	n	_	2	定中关系	_	_
2	外观	外观	n	n	_	4	主谓关系	_	_
3	很	    很	    d	d	_	4	状中结构	_	_
4	漂亮	漂亮	a	a	_	0	核心关系	_	_
  • 1
  • 2
  • 3
  • 4
  • 规则:
    依存关系为主谓关系,其中,评论主体为名词(n),评论主体属性为形容词(a),

那么,基于规则集和依存句法分析结果可以提取观点:

外观漂亮

同时也可以基于此增加相关句法成分的修饰成分,比如,结合评论主体的修饰成分“定中关系”可以修正抽取的观点为:

手机外观很漂亮

在此,总结几条规则:

序号依存关系评论主体主体属性备注
1主谓关系名词形容词
2定中关系名词形容词
3主谓关系名词动词主体属性存在动宾关系或动补结构且词性为形容词副词
4状中结构动词名词

例如,文本的句法依存关系如下:

规则1

1   手机	手机	n	n	_	2	定中关系	_	_
2	外观	外观	n	n	_	4	主谓关系	_	_
3	很	    很	    d	d	_	4	状中结构	_	_
4	漂亮	漂亮	a	a	_	0	核心关系	_	_
  • 1
  • 2
  • 3
  • 4

手机外观很漂亮

规则2

1	美味	美味	n	n	_	3	定中关系	_	_
2	的	    的	    u	u	_	1	右附加关系	_	_
3	饭菜	饭菜	n	n	_	0	核心关系	_	_
  • 1
  • 2
  • 3

饭菜美味

规则3

1	车内	车内	nl	s	_	2	定中关系	_	_
2	空间	空间	n	n	_	3	主谓关系	_	_
3	算	    算	    v	v	_	0	核心关系	_	_
4	比较	比较	d	d	_	5	状中结构	_	_
5	大	    大	    a	a	_	3	动补结构	_	_
  • 1
  • 2
  • 3
  • 4
  • 5

空间比较大

规则4

1	动感	动感	n	n	_	3	状中结构	_	_
2	地	    地	    u	u	_	1	右附加关系	_	_
3	拍照	拍照	v	v	_	0	核心关系	_	_
  • 1
  • 2
  • 3

拍照动感

4、参考文献

《统计自然语言处理》 宗成庆
《基于统计方法的汉语依存句法分析研究》 马金山

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/花生_TL007/article/detail/394871
推荐阅读
相关标签
  

闽ICP备14008679号