当前位置:   article > 正文

NLP自然语言处理(一)——概述篇_nlp数据预处理为什么标注类别标签不一样

nlp数据预处理为什么标注类别标签不一样

1. 基本概念

语言(Language)是用于传递信息的表示方法、约定和规则的集合,是人类进行通信的自然媒介。语言由语句构成,语句又由词语构成,语句和词语经过一定的语法规则组成语言。
在这里插入图片描述
自然语言处理NLP(Natural Language Processing )是计算机科学领域以及人工智能的重要研究方向,研究语言能力和语言应用的表示模型,用来研究计算机来处理、理解以及运用人类语言,达到计算机能够理解人类语言的含义,实现人机交互(通讯),简单来说就是计算机通过NLP达到与人类通讯的目的。

根据已总结的知识,计算机对自然语言的理解与处理一般要经过以下4个步骤:

  • 从语言学的角度提出自然语言处理的问题和理论。
  • 把需要研究的语言学问题加以形式化,使之能够以一定的数学形式或者接近于数学形式严格的描述出来。
  • 把严格的数学形式用算法表示,使之能够在计算上形式化。
  • 在计算机上编写对应的程序代码实现算法,即实现自然语言处理

2. 历史过程

NLP以计算机语言学为基础作为一门新兴的边缘学科,经历过三个阶段:

  • 萌芽期:1956年前,马尔可夫、奥涅金、香农,经验主义。1956年乔姆斯基“形式语言理论”,不适合自然语言,提出了转换生成语法。基于规则的理性主义。
  • 快速发展期:1988年~1999年,基于统计、基于实 例、基于规则的语料库技术融和。1994年互联网的 商业化,对NLP的迫切需求。
  • 爆发期:21世纪以来,以Hinton为代表的深度 学习算法的出现,特征学习方法在NLP中取得很大进 展。

在NLP发展的历史中有4项非常重要的基础性研究,可以说这4项基础性研究是作为基石提供理论依据和方法供NLP研究者们学习和应用,它们是:

  • 马尔可夫Markov关于马尔可夫模型的研究
  • 图灵Turing关于算法计算模型的研究
  • 香农Shannon关于概率和信息论模型的研究
  • 乔姆斯基Chomsky关于形式语言理论的研究

以下是4项基础性研究的简要介绍:

  1. 在1913年,俄罗斯著名数学家A.Markov(马尔可夫)把俄罗斯诗人普希金的叙事长诗《欧根· 奥涅金》中的连续字母加以分类, 把元音记为 V,把辅音记为 C,然后以连续字母为统计单元进行计算,研究元音和辅音字母出现概率之间的相互影响,提出了马尔可夫链的思想,该思想发展成为在计算语言学 中广为使用的马尔可夫模型(Markov model),是当 代计算语言学最重要的理论支柱之一。
  2. 在计算机出现以前,英国数学家A. M. Turing(图灵)预见到未来的计算机将会对自然语言研究提出新的问题,图灵在1936年发表过一篇题为《论 可计算数及其在判定问题中的应用》的论文,并提出著名的图灵机”数学模型,可制造一种十分简单但 运算能力极强的计算装置,用来计算所有能想象得到的可计算函数。
    “图灵测试”由计算机、被测试的人和主持试验 人组成。计算机和被测试的人分别在两个不 同的房间里。测试过程由主持人提问,由计 算机和被测试的人分别做出回答。观测者能 通过电传打字机与机器和人联系(避免要求机器模拟人外貌和声音)。被测人在回答问 题时尽可能表明他是一个“真正的”人,而 计算机也将尽可能逼真的模仿人的思维方式 和思维过程。如果试验主持人听取他们各自 的答案后,分辨不清哪个是人回答的,哪个 是机器回答的,则可以认为该计算机具有了 智能。
  3. 1948年,美国学者Shannon(香农)使用离散马尔可夫过程的概率模型来描述语言的自动机,香农另一个贡献是创立的“信息论”通过诸如通信信道或声学 语音这样的媒介传输语言的行为比喻为“噪声信道” 或者解码
  4. 1956年,美国语言学家N. Chomsky(乔姆斯基)从香农的工作吸取了有限状态马尔可夫过程的思想,首先把有限状态自动机作为 一种工具来刻画语言的语法,并且把有限状态语言定义为由有限状态语法生成的语言。其攥写的的《句法结构》被认为是20世纪理论语言学研究上最伟大的贡献。

3. 基本结构组成

NLP由两部分组成:

  • 自然语言理解NLU(Natural Language Understanding ):

一个综合性系统工程,涉及:音系学(语言中发音的系统化组织)、词态学(单词构成及相互关系)、句法学(文本语法正确性)、语义学(文本含义)、语用学(文本目的),理解语言内容并生成结构化数据。
NLU包括以下部分:

在这里插入图片描述
分词、词性标注、句法分词、语义分析分别 建立模型,联合使用。

  • 自然语言生成NLG((Natural Language Generating ):

从结构化数据中以读取的方式自动生成文本, 包括:文本规划(完成结构化数据中的基础内容规划)、语句规划(从结构化数据中组合语句来表达信息流)、实现(生成通顺的语句表达文本),组成结构如下:
在这里插入图片描述

NLP能够应用的领域如下:
在这里插入图片描述

4. 未来发展

  • 趋势1:语义表示——从符号表示到分布表示
    直到现在,NLP的语义表示是由词汇和符号表示的,但符号容易产生多种不同的含义,影响文本内容识别,未来采用词汇与词汇组合的方法,把它表示为连续、低维、稠密的向量的话,就可以计算不同层次的语言单元之间的相似度,这种方法可以被深度学习神经网络使用。
  • 趋势2:学习模式——从浅层学习到深度学习
    从浅层到深层的学习模式中,浅层是分步骤走的,可能每一步都用了深度学习的方法,实际上各个步骤是串接起来的,而深度学习是直接一步到位的端到端。
  • 趋势3:NLP平台化——从封闭走向开放
    先前由于大多数研究人员不轻易分享研究成果,如程序代码或是数据,导致了封闭性;随着越来越开放的心态和环境,NLP领域提供的开放平台越来越多,它的门槛也越来越降低。
  • 趋势4:语言知识——从人工构建到自动构建
    以前NLP采用更多的是人工构建知识框架,如今慢慢开始使用神经网络自动提取知识并构建知识图谱。
  • 趋势5:对话机器人——从通用到场景化
    对话机器人应用场景越来越广泛,不仅有主流的购物引导、问题解决,还适用于如医学解决、化工问题等领域。
  • 趋势6:文本理解与推理——从浅层分析向深度理解迈进
    未来的 文本理解与推理不再停留于表层,只能够做一些基本工作,会利用神经网络进行文本的深度刨析得到较好的文本摘要。
  • 趋势7:文本情感分析——从事实性文本到情感文本
    多年以前,很多人都在做新闻领域的事实性文本,而如今,搞情感文本分析的似乎更受群众欢迎,这一块这在商业和政府舆情上也都有很好地应用。
  • 趋势8:社会媒体处理——从传统媒体到社交媒体
    在社会媒体处理上,从传统媒体到社交媒体的过渡过程中,人们会用社交媒体做电影票房的预测,做股票的预测等等。
  • 趋势9:文本生成——从规范文本到自由文本
    文本生成这两年很火,从生成古诗词到生成新闻报道到再到写作文。这方面的研究价值是很大的,它的趋势是从生成规范性的文本到生成自由文本。
  • 趋势10:NLP+行业——与领域深度结合,为行业创造价值
    现在越来越多像银行、电器、医药、司法、教育、金融等的各个领域对NLP的需求都非常多。
声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/Gausst松鼠会/article/detail/297884
推荐阅读
相关标签
  

闽ICP备14008679号