赞
踩
自然语言处理以不同的粒度处理自然语言。对于一个英文句子"“my name is xiaowang”,基本组成单元是字符(character),由空格符得到的是单词(word)。如果不考虑单词出现的重复情况,这个句子认为有4个token。加上标点符号的叫句子(Sentence),多个句子组成的叫段落(Paragraph),多个段落组成的叫篇章(Document)
通过标点符合实现
是给句子中的每个词标记响应的词性,词性又分为“动词、名词、形容词、副词”等
是指将某一单子还原至原型,包括单词的单复数、BE动词以及动词的过去时态等
是指识别句子的句法结构,其主要手段是分析句子中各语言成分之间的依存关系,其分析结果是一颗依存书,数的根节点root是关键动词,节点为名词主语。识别句子语法结构是浅层理解的重要形式。
对于语义分析,有命名实体识别、共指消解与语义角色标注等。命名实体识别成为NER,是识别句子中的实体,将句子内容分为人名、机构等,在医学上,常用的有IOBE标注格式(有篇NER的论文在审,希望好运)。共指消解是在识别句子中同一实体的不同表达,比如张三绰号阿三,老张,那么阿三和老张均对应张三。
又称为浅层语义分析,是指将句子中的某些词或短语标注为给定语义角色的过程,通常围绕动词短语的相关成分展开识别,比如行为人、时间、地点等
是指将文本表示为计算机能够运算的数值的向量形式。又分为离散表示和连续表示,其中离散表示使用独热编码(为每个单词做一个索引编码),好处是编码方便,缺点是规模可能比较大,另一种离散的表示形式是词袋表示。词袋表示常用语文本表示,直接将文本中单词的独热向量相加。
连续表示是利用Skip-fram或CBOW模型进行处理。
关于文本的向量表示,可以参看文本的向量表示方法。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。