赞
踩
语义分析(Semantic Analysis):指运用各种机器学习方法,学习与理解一段文本所表示的语义内容。
一段文本通常由词、句子和段落来构成,根据理解对象的语言单位不同,语义分析又可进一步分解为:
一般来说:
词义消歧根据一个多义词在文本中出现的上下文 环境来确定其词义,作为各项自然语言处理的基础步骤和必经阶段被提出来。词义消歧包含 两个必要的步骤:(1)在词典中描述词语的意义;(2)在语料中进行词义自动消歧。例如“苹 果”在词典中描述有两个不同的意义:一种常见的水果;美国一家科技公司
词义消歧主要面临如下两个关键问题:(1)词典的构建;(2)上下文 的建模。
One-hot
这种方法把每个词表示为一个很长的向量。这 个向量的维度是词表大小,其中绝大多数元素为 0,只有一个维度的值为 1,这个维度就代表了当前的词。
Word Embedding
通过训练将某种语言中的每一个词映射成一个固定维数的向量,将所 有这些向量放在一起形成一个词向量空间,而每一向量则可视为该空间中的一个点,在这个 空间上引入“距离”,则可以根据词之间的距离来判断它们之间的(词法、语义上的)相似性。
语义角色标注(Semantic Role Labeling,简称 SRL)是一种浅层的语义分析。
给定一个 句子,SRL 的任务是找出句子中谓词的相应语义角色成分,包括核心语义角色(如施事者、 受事者等)和附属语义角色(如地点、时间、方式、原因等)。
根据谓词类别的不同,又可 以将现有的 SRL 分为动词性谓词 SRL 和名词性谓词 SRL。
浅层语义分析主要围绕着句子中的谓词,为每个谓词找到相应的语义角色
深层的语义分析(有时直接称为语义分析,Semantic Parsing)不再以谓词 为中心,而是将整个句子转化为某种形式化表示,例如:谓词逻辑表达式(包括 lambda 演 算表达式)、基于依存的组合式语义表达式(dependency-based compositional semantic representation)等 。
以下给出了 GeoQuery 数据集中的一个中英文句子对,以及对应的一 阶谓词逻辑语义表达式:
中文: 列出在科罗拉多州所有的河流
英文: Name all the rivers in Colorado
语义表达式: answer(river(loc_2(stateid(‘colorado’))))
深度语义分析主要面临如下二个关键问题。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。