当前位置:   article > 正文

自然语言处理(一)基础知识概念_自然语言处理 语言学

自然语言处理 语言学

基本概念

计算语言学:通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科 自然语言处理 相比较,计算语言学更加侧重
基础理论和方法的研究。
自然语言理解:通过建立形式化的计算模型来分析、理解和生成自然语言的学科,是人工智能和语言学的分支学科。计算语言学是典型的交叉学科,其研究常常涉及计算机科学、语言学、数学等多个学科的知识。与内容接近的学科 自然语言处理 相比较,计算语言学更加侧重基础理论和方法的研究。
自然语言处理:自然语言处理是研究如何利用计算机技术对语言文本(句子、篇章或话语等)进行处理和加工的一门学科,研究内容包括对词法、句法、语义和语用等信息的识别、分类、提取、转换和生成等各种处理方法和实现技术。
自然语言理解 (natural language understanding, NLU)是人工智能最重要的研究方向之一,是当今“ 人工智能皇冠上的明珠 ”。

近年来,自然语言处理技术迅速发展成为一门相对独立的学科,倍受关注,而且该技术不断与语音技术相互渗透和结合形成新的研究分支,因此,很多人在谈到“计算语言学”、“自然语言处理”或“自然语
言理解”这些术语时,往往默认为同一个概念。甚至有专著[刘颖,2002]干脆直接解释为:计算语言学也称自然语言处理或自然语言理解。
在这里插入图片描述
三个不同的语系:
屈折语( ( fusional language/ inflectional language ) ): : 用词的形态变化表示语法关系,如英语、法语等。
黏着语( ( agglutinative language ) ): : 词内有专门表示语法意义的附加成分,词根或词干与附加成分的结合不紧密,如日语、韩语、土耳其语等。
孤立语( ( isolating language ) ): : 又称 分析语 (analytic language),几乎没有形态变化,语法关系靠词序和虚词表示,如汉语、苗语、越南语等。

研究内容

机器翻译(Machine translation, MT): 实现一种语言到另一种语言的自动翻译。
应用: 文献翻译、网页辅助浏览等。
信息检索 (Information retrieval, IR):信息检索也称情报检索,就是利用计算机系统从大量文档中找到符合用户需要的相关信息。
自动文摘 (Automatic summarization / Automaticabstracting):将原文档的主要内容或某方面的信息自动提取出来,并形成原文档的摘要或缩写。
问答系统(Question-answering system. Q&A):通过计算机系统对人提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并做出相应的回答。问答技术有时与语音技术和多模态输入/输出技术,以及人机交互技术等相结合,构成人机对话系统 (man-computer dialogue system)。
在这里插入图片描述

面临的问题和挑战

在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
归纳起来,HLT所面临的挑战:
l 普遍存在的不确定性:词法、句法、语义、语用和语音各个层面
l 未知语言现象的不可预测性:新的词汇、新的术语、新的语义和非规范语法等现象无处不在
l 始终面临的数据不充分性:有限的语言集合无法涵盖开放的语言现象
l 知识表示的复杂性:语义知识的模糊性和错综复杂的关联性难以用常规方法有效地描述,为语义计算带来了极大的困难

基本方法与技术现状

在这里插入图片描述
理性 主 义 : 通过对一些代表性语句或语言现象的研究得到对人的语言能力的认识,归纳语言使用的规律,以此分析、推断测试样本的预期结果。
在这里插入图片描述
经验主义: 利用大规真实语言数据,借助人的帮助(标注数据和筛选特征等),统计发现语言使用的规律及其可能性(概率)大小,以此为依据计算预测测试样本的可能结果。统计单元是离散事件(词、短语、词性等)。
在这里插入图片描述
连结主义: 利用大规真实语言数据构建模型,统计发现语言使用的规律及其可能性(概率)大小,从数据中自动学习特征,以此为依据计算预测测试样本的可能结果。统计单元采用连续的实数空间表示(向量)。
在这里插入图片描述
举例:在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
现状:
1.部分问题得到了解决,可以为人们提供辅助性帮助,如:机器翻译、电子词典、搜索引擎、文字录入、语音识别等;
2.基础问题研究仍任重而道远,如:语义表示和计算、高质量的自动翻译等;
3.社会需求日益迫切:个性化信息服务、网络内容管理、国家安全等;
4.许多技术离真正实用的目标还有相当的距离,尚未建立起有效、完善的理论体系。
在这里插入图片描述
参考文献:
在这里插入图片描述
在这里插入图片描述
黑色的那本有神经网络的方法
在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/凡人多烦事01/article/detail/520177
推荐阅读
相关标签
  

闽ICP备14008679号