赞
踩
随着互联网特别移动互联网带给人们的便利性应用,越来越多的生活场景可以在线完成,比如,网上购物、网上政务、互联网娱乐等等,那么,很多应用场景都会开放平台和用户的交互,比如,浏览新闻是可以基于新闻内容阐述个人观点,网上购物时可以对购买的物品进行评价。
那么,用户的交互式评论对平台相关内容的改进起到很大作用,然而,随着应用的普及,海量交互式评论的分析成为一种挑战,如何对评论进行自动化观点抽取成为必不可少的需求。
在此,针对观点抽取,本文阐述基于句法分析的一种实现技术,在介绍观点抽取技术之前,先来了解下句法分析的技术。
句法分析是自然语言处理(NLP)中的关键底层技术之一,其基本任务是确定句子的句法结构或者句子中词汇之间的依存关系。
句法分析分为句法结构分析(syntactic structure parsing)和依存关系分析(dependency parsing)。以获取整个句子的句法结构或者完全短语结构为目的的句法分析,被称为成分结构分析(constituent structure parsing)或者短语结构分析(phrase structure parsing);另外一种是以获取局部成分为目的的句法分析,被称为依存分析(dependency parsing)。
首先,来看下句子个成分间存在哪些依存关系,下面的列表列出了了依存关系及举例:
Tag | 关系 | Description | Example |
---|---|---|---|
SBV | 主谓关系 | subject-verb | 我送她一束花 (我 <– 送) |
VOB | 动宾关系 | 直接宾语,verb-object | 我送她一束花 (送 –> 花) |
IOB | 间宾关系 | 间接宾语,indirect-object | 我送她一束花 (送 –> 她) |
FOB | 前置宾语 | 前置宾语,fronting-object | 他什么书都读 (书 <– 读) |
DBL | 兼语 | double | 他请我吃饭 (请 –> 我) |
ATT | 定中关系 | attribute | 红苹果 (红 <– 苹果) |
ADV | 状中结构 | adverbial | 非常美丽 (非常 <– 美丽) |
CMP | 动补结构 | complement | 做完了作业 (做 –> 完) |
COO | 并列关系 | coordinate | 大山和大海 (大山 –> 大海) |
POB | 介宾关系 | preposition-object | 在贸易区内 (在 –> 内) |
LAD | 左附加关系 | left adjunct | 大山和大海 (和 <– 大海) |
RAD | 右附加关系 | right adjunct | 孩子们 (孩子 –> 们) |
IS | 独立结构 | independent structure | 两个单句在结构上彼此独立 |
WP | 标点符号 | punctuation | 标点符号 |
HED | 核心关系 | head | 指整个句子的核心 |
依存句法分析的前提假设:
(1)一个句子中只有一个成分是独立的,该成分定义为核心关系;
(2)句子的其他成分都从属于特定的成分 ;
(3)任何一个成分都不能依存于两个或两个以上的成分;
(4)如果成分A直接从属成分B,而成分C在句子中位于A和B之间,那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间的某一成分;
(5)中心成分左右两边的其他成分相互不发生关系;
评论观点的构成一般如下图所示,评论观点一般是由评论主体和评论主体的属性构成,比如:“手机外观漂亮”,评论主体是“手机外观”,评论主体的属性是“漂亮”。
然而,评论主体和评论主体属性都是句法分析的成分,二者存在特定的依存关系,总结一套观点构成的规则集,结合句法依存关系实现评论观点的提取:
比如,针对文本“手机外观很漂亮”:
1 手机 手机 n n _ 2 定中关系 _ _
2 外观 外观 n n _ 4 主谓关系 _ _
3 很 很 d d _ 4 状中结构 _ _
4 漂亮 漂亮 a a _ 0 核心关系 _ _
那么,基于规则集和依存句法分析结果可以提取观点:
外观漂亮
同时也可以基于此增加相关句法成分的修饰成分,比如,结合评论主体的修饰成分“定中关系”可以修正抽取的观点为:
手机外观很漂亮
在此,总结几条规则:
序号 | 依存关系 | 评论主体 | 主体属性 | 备注 |
---|---|---|---|---|
1 | 主谓关系 | 名词 | 形容词 | |
2 | 定中关系 | 名词 | 形容词 | |
3 | 主谓关系 | 名词 | 动词 | 主体属性存在动宾关系或动补结构且词性为形容词副词 |
4 | 状中结构 | 动词 | 名词 | |
… | … | … | … | |
例如,文本的句法依存关系如下:
规则1
1 手机 手机 n n _ 2 定中关系 _ _
2 外观 外观 n n _ 4 主谓关系 _ _
3 很 很 d d _ 4 状中结构 _ _
4 漂亮 漂亮 a a _ 0 核心关系 _ _
手机外观很漂亮
规则2
1 美味 美味 n n _ 3 定中关系 _ _
2 的 的 u u _ 1 右附加关系 _ _
3 饭菜 饭菜 n n _ 0 核心关系 _ _
饭菜美味
规则3
1 车内 车内 nl s _ 2 定中关系 _ _
2 空间 空间 n n _ 3 主谓关系 _ _
3 算 算 v v _ 0 核心关系 _ _
4 比较 比较 d d _ 5 状中结构 _ _
5 大 大 a a _ 3 动补结构 _ _
空间比较大
规则4
1 动感 动感 n n _ 3 状中结构 _ _
2 地 地 u u _ 1 右附加关系 _ _
3 拍照 拍照 v v _ 0 核心关系 _ _
拍照动感
《统计自然语言处理》 宗成庆
《基于统计方法的汉语依存句法分析研究》 马金山
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。