赞
踩
论文地址:全文阅读--XML全文阅读--中国知网 (cnki.net)
nlp是一门研究如何让计算机听懂人类语言的学科,各平台用户的言论对商家而言,对用户本身来说提供情绪宣泄。
来源:自然语言处理(1):分词_自然语言处理 分词-CSDN博客
分词是自然语言处理的基础,分词准确度直接决定了后面的词性标注、句法分析、词向量以及文本分析的质量。英文语句使用空格将单词进行分隔,除了某些特定词,如how many,New York等外,大部分情况下不需要考虑分词问题。但中文不同,天然缺少分隔符,需要读者自行分词和断句。故在做中文自然语言处理时,我们需要先进行分词。
比如人名,有的算法认为姓和名应该分开,有的认为不应该分开。这需要制定一个相对统一的标准。又例如“花草”,有的人认为是一个词,有的人认为应该划分开为两个词“花/草”。某种意义上,中文分词可以说是一个没有明确定义的问题。
不同的切分结果会有不同的含义,这又包含如下几种情况
有专家统计过,中文文本中的切分歧义出现频次为1.2次/100汉字,其中交集型歧义和组合型歧义占比为12:1。而对于真歧义,一般出现的概率不大。
分为三类:
基于词典的分词
基于词典的分词算法,本质上就是字符串匹配。将待匹配的字符串基于一定的算法策略,和一个足够大的词典进行字符串匹配,如果匹配命中,则可以分词。根据不同的匹配策略,又分为正向最大匹配法,逆向最大匹配法,双向匹配分词,全切分路径选择等。
__最大匹配法__主要分为三种:
基于统计的分词
基于统计的分词算法,本质上是一个序列标注问题。我们将语句中的字,按照他们在词中的位置进行标注。标注主要有:B(词开始的一个字),E(词最后一个字),M(词中间的字,可能多个),S(一个字表示的词)。例如“网商银行是蚂蚁金服微贷事业部的最重要产品”,标注后结果为“BMMESBMMEBMMMESBMEBE”,对应的分词结果为“网商银行/是/蚂蚁金服/微贷事业部/的/最重要/产品”。
我们基于统计分析方法,得到序列标注结果,就可以得到分词结果了。这类算法基于机器学习或者现在火热的深度学习,主要有HMM,CRF,SVM,以及深度学习等。
基于规则的分词
基于规则的分词方法也是一种常见的中文分词方法。与基于词典的方法不同,基于规则的方法是根据人工定义的一系列规则来对句子进行切分。这些规则可以基于语言学知识、语法规则或其他领域特定的规则,或者是根据前面已经切分好的部分顺势推断后面的切分位置。基于规则的分词方法可分为基于有限状态自动机(Finite State Automata, FSA)和基于上下文无关文法(CFG)两类。
基于有限状态自动机的规则分词方法是将分词过程看作有限状态自动机,在自动机中,每个状态表示一个位置,转移边表示一个字(或几个字)和预期的状态和输出(即分出来的词)。通过将词典中的词作为合法序列添加到自动机中寻找对应的词语,同时在自动机上定义分词规则。在实际应用中,由于需要人工编写规则,这种方法需要耗费大量的人力和时间。
基于上下文无关文法的规则分词方法是将中文分词问题看作是一个语言模型问题,就好像将一个句子作为一个句法结构来表示。这种方法可以通过语法规则推断和分类无限制长度和形式变化的句子,并根据推断结果进行分割,也需要人工编写,但在一些特定领域(比如医学)中有应用。
基于规则的分词方法通常用于一些规则相对固定、文本稳定、领域专业词汇较多的领域,例如机器翻译、信息提取和语料库构建等应用。
命名实体识别是一种信息抽取技术,信息抽取就是从非结构化的文本中抽取结构化的数据和特定的关系。识别文本中的人名,地名,时间等实体的名称,就叫做命名实体识别。
命名实体识别的任务就是识别出待处理文本中三大类(实体类、时间类和数字类)、七小类(人名、机构名、地名、时间、日期、货币和百分比)命名实体。
命名实体识别的方法分为三类:
基于词典和规则的方法
将识别对象放入对应字典中,以模式和字符串方式进行匹配。此方法只适合小规模的数据,而且系统移植性不强。
基于机器学习的方法
将命名实体识别看作一个序列标注问题。常用的序列标注模型有:隐马尔可夫模型(HMM),最大熵马尔可夫模型(MEMM),条件随机场(CRF),支持向量机(SVM)。
基于深度学习的方法
在神经网络逐渐发展成熟后提出的,词向量的出现,可以解决高维空间的数据稀疏问题。
利用情感词典获取文档中情感词的情感值,再通过加权计算来确定文档整体情感倾向。不光包括文字还有颜文字,表情包等。
但是基于情感词典的方法过度依赖于情感词典的创建, 始终有作为字典的局限,并且对于成语、歇后语等的识别效 果并不理想;
支持向量机,朴素贝叶斯对于文本数据的分类效果较好。
用于情感分类,SVM的学习策略就是间隔最大化,基本模型是定义在特征空间上间隔最大的线性分类器。
对于输入空间中的非线性分类问题,引入核函数,核函数的主要作用是将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分。
算法链接有案列:【机器学习】朴素贝叶斯算法-CSDN博客
基于机器学习的情感分类法比起构建情感词典有一定 的进步,但是还是需要人工对文本特征进行标记,人为的主 观因素会影响的最后的结果;其次,机器学习需要依赖大量 的数据,很容易产生无效的工作,执行的速度会很慢,如果模 型的效率不高,难以适应如今信息量爆炸的时代,这类方法 在进行情感分析时常常不能充分利用上下文文本的语境信 息,对准确性会造成影响。
深度学习模型CNN,RNN,LSTM,Transformer,BiLSTM,门控循环单元和注意力机制。
CNN 如图 5 所示,与普通神经网络相似,它们都由具有 可学习的权重和偏置常量的神经元组成。每个神经元都接 收一些输入,并做一些点积计算,输出是每个分类的分数,普 通神经网络里的一些计算技巧到这里依旧适用。
在有些情况下,为了解决 RNN 可能会出现的梯度消失 或 者 梯 度 爆 炸 问 题 ,又 提 出 了 LSTM 模 型 如 图 7 所 示 。 和 RNN 相比,LSTM 只是运算的逻辑变了,也就是神经元的内 部运算公式变了,但是结构并没有变,因此 RNN 的各种结构 都能通过 LSTM 来替换。
以深度学习为基础构造词典。
在深度学习中,CNN 取得了较好的效果,但是 CNN 没有 考虑到文本的潜在主题
RBM BGRU
预训练模型作为一种迁移学习的应用,它可以将从开放 领域学到的知识迁移到下游任务,以改善低资源任务,对低 资源语言处理也非常有利,在几乎所有 NLP 任务中都取得 了目前最佳的成果。同时预训练模型+微调机制具备很好的 可扩展性,出现一个新任务时,不需要重复使用大量的时间 和数据训练一个新的模型,只需要根据需求调整参数即可
在语境中,目前还没有找到较好的方法处理反语;大部分的 分类仍使用的二分类情感分析,对于多分类的情感分析还没 有好的效果;多模态融合语料的情感分类也是近年的热点, 不同模态中情感信息的权重如何分配,考虑外部语义信息对 情感分类的准确性是否有帮助,也需要研究。
46 | RBM 分析句子 |
47 | BGRU 中文文本 |
48 | RNN 小语种 |
49 | RNN+LSTM 英文 |
50 | 基于注意力的LSTM 面向方面层次情感的分类 |
51 | LSTM 最佳参数合集 |
52 | 推特 微博 表情 |
单一神经网络+注意力机制 | |
53 | BiLSTM+多极化正交注意力机制 隐式情感分析 |
54 | 双向注意力机制+GUR 情感预测 |
55 | LSTM+注意力 |
56 | 内容注意力 方面的情感分类模型 句子层面 语境注意机制 |
57 | 多注意力机制 远距离分离情感特征 结合不同关注点预测情感 |
58 | MATT-LSTM 基于方面 |
59 | 多层融合LSTM |
混合神经网络 | |
60 | 注意力+CNN-RNN |
61 | LSTM+CNN Wor2vec dropout |
62 | CNN-LSTM 短文本情感分类 |
63 | CNN BiLSTM |
64 | BiLSTM+随机森林 |
65 | EBA 隐式情感分析 |
66 | MAML+BiLSTM 情感分类 使用梯度下降更新参数 |
67 | 注意力+CNN+双向门控循环单元 解决梯度消失和梯度爆炸 |
68 | Multi-BiLSTM |
69 | CNN+LSTM |
预训练模型 | |
:ELMo (Embeddings from Language Models)、BERT(Bidirectional Encoder Representation from Transformers)、XLNET、ALBERT (A Lite BERT)、Transformer | |
70 | ELMo+Transformer+LSTM+多头注意力 情感分类 |
71 | 双向自注意力网络Bi-SAN |
72 | BERT-MCNN |
73 | 基于BERT的新方法 |
74 | ELMo+BERT=DomBERT 情感分析 |
76 | SentiBERT 捕获否定关系和对比关系以及构建模型方面更有优势 |
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。