赞
踩
自然语言处理(Natural Language Processing,简称NLP)是主要研究人与计算机交际中的语言问题的一门学科。“自然语言处理要研制表示语言能力(linguistic competence)和语言应用(linguistic performance)的模型,建立计算机框架来实现这样的语言模型,提出相应的方法来不断完善这样的语言模型,根据这样的语言模型设计各种实用系统,并探讨这些实用系统的评测技术。”(Manaris,1999)更简单直观的说法,就是采用计算机技术来研究和处理自然语言。
从方法论上可以分为两种:
理性主义方法(根据一套规则或程序,将自然语言理解为符号结构–可以从结构中符号的意义上推出结构的意义。 由人事先设计好规则集。 强调基于规则的方法);
经验主义方法(统计学的方法和神经网络学习方法。从大量的语言数据中获取语言的结构知识(语料库)。 强调基于学习的方法 )
大量真实自然语言文本组成的集合,它集合了语言的集体应用实例,通过利用一定的自动学习算法,主要是概率统计技术,从中获取带有相应概率的语言使用规则。从中获取的知识有:
a,词频统计数据(单个词的出现频率及相邻次的同现频率);
b,经过词性标注后某一标注串出现的频率;
c,词与词之间的联结关系、依存关系。
大字符集的语言、形态上的区别少、没有词型变化、句型变化繁多、大量的同形歧义和同音歧义、一词多义。
词法、句法、语义、语用、语境分析。
A, 自动分词的方法:正向最大匹配法、逆向最大匹配法、逐次遍历匹配法、设立切分标志法、最佳匹配法、最小匹配法、最少词数切分法等。
B, 自动分词的指标:切分速度、切分精度、系统的可维护性。
C, 关键问题:分词的歧义问题;所采用的词典的构造、作用及完备性问题。
D, 歧义产生的原因及解决办法:
分类 | 原因 | 解决办法 |
---|---|---|
第一类歧义 | 自然语言中的二义性所产生的 | 分词知识处理;人工分词和计算机自动分词结合 |
第二类歧义 | 自动分词所产生的特有的 | 分词知识处理;联想-回溯法;基于词频统计的方法;邻接约束 法;基于数学期望的方法 |
第三类歧义 | 分词词典的大小产生的 | 增加构词知识;增加临时词典 |
采用规则方法:根据词性上下文的关系,总结出一系列的规则,在标注时如遇到一词多性,就调用系统所有的规则进行排歧。
缺点是覆盖面有限;规则库的庞大会使其维护起来困难重重。
采用统计方法:借助一个已经标记的熟语料库,标注时先根据语料库计算词性之间的同现概率,然后根据同现概率进行排歧处理。步骤如下:
汉语词的兼类现象错综复杂,其主要构成如下:
划分词性的三种依据:形态标准;意义标准;分布标准。
一般标记集的设定分化有以下原则:
利用词典资源进行排歧;利用语料库进行词义排歧。
特征获取—>特征选择—>特征加权—>相似度计算。
A, 主要功能:确定语句是否合乎语法;使句子结构规则化。
B, 句法分析的主要方法:短语结构语法、转换语法、链语法、扩充转移网络、基于合一的语法、广义的LR(left to right)算法等。
C, 汉语语法特性:
这个是自然语言处理最为人知的场景,也是现在没有什么明确商业化的场景。一般都是拿这种机器翻译来作为某个应用的组成部分,比入跨语言的搜索引流等等。国内外对于机器翻译都有比较成熟的产品,比如百度翻译、有道翻译、Google 翻译等等。机器翻译由于涉及到语义分析、上下文环境等面临很多挑战。
Google在线翻译: https://translate.google.cn/
Google翻译使用算法:
Sequence-to-Sequence模型(也称为seq2seq)。基本的seq2seq模型由两个RNN(循环神经网络:利用它内部的记忆来处理任意时序的输入序列)组成:一个是处理输入的编码器网络,一个是生成输出的解码器网络。
情感分析在一些评论机制的app中比较有用,比如某酒店网站,下面会有居住过的客人的评价,如果评论有几千条,满满的都是脏乱差,那谁还想住呢!所以可以通过情感分析,分析用户评论是积极的还是消极的,根据一定的排序规则和显示比例,在评论区显示。同样这个场景也适用于电商网站的商品评价。
TTM(Time-Type-Mood message)算法:基于访问时间、资源种类和心情留言的推荐算法。(《学习系统中基于用户行为分析的推荐算法研究》)
问答系统在一些电商网站也很有实际价值,比如充当客服角色。有很多基本的问题,其实并不需要真的联系人工客服来解决。通过这种智能的问答系统,就可以排除掉大量的用户问题,比如商品的质量投诉、商品的基本信息查询之类的。这样可以省去大量的人工成本。
图灵机器人:http://www.tuling123.com/experience/exp_virtual_robot.jhtml?nav=exp
使用算法:
递归神经网络(Recursive Neural Network)、循环神经网络(Recurrent Neural Network,RNN)、卷积神经网络(Convolutional Neural Network, CNN)
在很多搜索引擎的公司,都会采集各种数据,然后进行信息的提取分析。比如新闻的自动分类,就需要针对文本提取关键信息,然后应用一些tf-idf的算法,进行主要的主题分析,从而进行自动的分类。
使用算法:
LBP算法(Local Binary Pattern局部二值模式):《基于视觉信息的图像特征提取算法研究》
行块分布函数:《基于行块分布函数的通用网页正文抽取算法》
根据的中文同声传译翻译成英文。翻译器视频:
参考:http://www.shidi.org/sf_DEB72250E26D4F96A9CB2857439BE6ED_277_xhat.html
说到这个舆论分析,最著名的就是奥巴马的总统竞选了。比如通过数据分析筹集资金,改变广告的投放策略,制作有效的拉票推荐等等。
参考:http://tech.qq.com/a/20121108/000182.htm
自然语言处理在语言生成方面目前也有很多的应用场景(新闻、篮球解说、文本摘要),比如体育类节目的ai解说:
参考:http://www.techweb.com.cn/it/2016-08-17/2376291_4.shtml
它能够描述复杂的关联关系。知识图谱是面向业务领域的,比如百度描述明星关系的案例。
参考:http://tupu.baidu.com/xiaoyuan/
'''笔者的话:小白一个,最近一直在学习自然语言处理。以后准备在这方面发展。也就计划开始写博客,希望自己有所提升。文中主要是笔者看过的文章和书籍中整理出来的,第一次发博客。当中肯定有许多瑕疵,内容肯定也不是那么完善。请大家多多包含,以后会更加努力,争取写出质量高的文章。FIGHTING...(热烈欢迎大家批评指正,互相讨论)
(第一步总是很难的,坚持下去更难。希望自己迎难而上。)'''
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。