赞
踩
目录
1 自然语言处理概述
2 自然语言处理过程与方法
3 中文语料库
4 自然语言处理应用举例
5 参考资料
1 自然语言处理概述
1.1 概念分析
自然语言处理(NLP,Natural Language Processing)是使用自然语言同计算机进行通讯的技术,自然语言处理是计算机科学领域与人工智能领域的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。相对于诸如计算机语言之类人造语言而言,自然语言是指我们日常生活中使用的语言,如中文,英语等。随着通信和计算机相关技术的发展,自然语言处理的应用需求也越来越大,它不断推进AI技术应用的升级,帮助各个产业实现数字化转型。
1.2 发展历程
20世纪50年代是人工智能与自然语言处理的萌芽期,出现了许多奠基性的工作。
20世纪80年代后,统计模型给人工智能和自然语言处理领域带来了革命性的进展,人们开始标注语料库用于开发和测试NLP模块,1988年隐马尔可夫模型被用于词性标注,1990年IBM公布了第一个统计机器翻译系统,1995年出现第一个健壮的句法分析器。
2010年之后语料库规模、硬件计算力都得到了很大提升,为神经网络的复兴创造了条件。但随着标注数据的增加,传统模型的准确率提升越来越不明显,人们需要更复杂的模型,于是深层的神经网络重新回归研究者的视野。
2020 年,NLP 技术仍然在快速发展的车道上。例如内容生成方向,以 GPT-3 为代表的预训练技术不仅在 NLP、甚至在整个 AI 领域都受到了广泛关注。人机对话方向,谷歌去年初发布了 Meena、Facebook 发布了 Blenderbot等一系列聊天机器人推动了人机对话技术的发展。同时NLP也推动了多模态智能、数字内容生成、图神经网络等技术的发展。
1.3 难点
自然语言处理的困难关键在于消除歧义问题,如词法分析、句法分析、语义分析等过程中存在的歧义问题,简称为消歧。同一种语言形式可能具有多种含义,而正确的消歧需要大量的知识,包括语言学知识和世界知识。尤其是中文的词与词之间缺少天然的分隔符,于是中文文字处理比英文等西方语言多一步确定词边界的工序,即“中文自动分词”任务。自动分词处于中文自然语言处理的底层,意味着它是理解语言的第一道工序,但正确的单词切分又需要取决于对文本语义的正确理解。NLP中基于上下文的挑战,如讽刺、特定领域的语言、歧义和基于方面的情感分析,将用现有的方法加以解释,以克服这些挑战。
2 自然语言处理过程与方法
2.1 过程任务
自然语言处理过程的层次任务包括数据输入源、词法分析、信息抽取、语法分析,下面做简要分析。(1) 数据输入源:自然语言处理系统的输入源有语音、图像与文本。其中,语音和图像虽然正引起越来越大的关注,但受制于存储容量和传输速度,它们的信息总量还是没有文本多。(2)词法分析:中文分词、词性标注和命名实体识别都是围绕词语进行分析,所以统称词法分析。词法分析主要任务是将文本分隔为有意义的词语,确定每个词语的类别和浅层的歧义消除,并且识别出一些较长的专有名词。(3)信息抽取:根据这些单词与标签,可以抽取出一部分有用的信息,从简单的高频词到高级算法提取出的关键词,也可以根据词语之间的统计学信息抽取出关键短语乃至句子,更大颗粒度的文本对用户更加友好。(4)语法分析:句法分析分为句法结构分析和依存关系分析。以获取整个句子的句法结构为目的称为完全句法分析,而以获得局部成分为目的的句法分析称为局部分析,依存关系分析简称依存分析。
2.2 处理方法简介
从广义的角度来讲,目前自然语言处理的研究从大的角度可分为两类方法,理性主义与经验主义方法。理性主义方法主张建立符号处理系统,经验主义方法主张通过建立特定的数学模型。例如基于规则的专家系统、基于统计的学习方法、基于经典机器学习的方法、基于深度学习的方法等。
3 中文语料库
3.1 语料库集合
语料(语言材料)是语言学研究的内容,是构成语料库的基本单元。我们把一个文本集称为语料库,当有几个这样的文本集合的时候,我们称之为语料库集合。
3.2 语料库介绍
(1)词性标注语料库指的是切分并为每个词语指定一个词性的语料。当前最大的汉语词性标注语料库是《汉语词性标注语料库》,它是对人民日报1998年全文(约2600万字)进行了人工词性标注的语料库。(2)汉语中常用的句法分析语料库主要是汉语树库,树库大体上分为短语结构树库和依存结构树库。短语结构可以用来提取短语,目的是分析句子的产生过程,一般采用句子的结构成分描述句子的结构。依存结构树库是根据句子的依存结构而建立的树库。依存结构描述的是句子中词与词间直接的句法关系,相应的树结构也称为依存树。(3)文本分类语料库指的是人工标注了所属分类的文章构成的语料库。相较于上面介绍的语料库,文本分类语料库的数据量明显要大得多。
4 自然语言处理应用举例
(1)情感分析是一种有趣的NLP和数据挖掘任务,用于衡量人们的观点倾向。利用RNN,LSTM等技术的情感分析有助于检查顾客对商品或服务是否满意。人们愿意在社交网络上分享他们的观点,搜索负面文本和识别主要的投诉可以显著地帮助改变概念、改进产品和广告,并减少不满的程度。反过来,明确的正面评论会提高消费者的购买需求。
(2)问答系统是一种涉及到构建能够用自然语言自动回答人类提出的问题的系统。比如Siri、谷歌等虚拟助理。在回答用户问题时,要正确理解用户所提出的问题,抽取其中关键的信息,在已有的语料库或者知识库中进行检索和匹配,然后将获取的答案反馈给用户。
(3)个性化推荐。自然语言处理可以依据大数据和历史行为记录,学习出用户的兴趣爱好,预测出用户对给定物品的评分或偏好,实现对用户意图的精准理解,同时对语言进行匹配计算,实现精准匹配。
(4)网络舆情管理逐渐成为维护社会安全稳定的重要部分,利用诸如人工智能、NLP等计算机专业知识来识别并管理社交平台的异常舆论是相关行业从业者应行之事,同时树立并弘扬科学且正确的价值观同样重要,这也需要我们在教育领域不断探索适合各年龄阶段受众人群的教育方法。
5 参考资料
[1]Shaik T, Tao X, Li Y, et al. A Review of the Trends and Challenges in Adopting Natural Language Processing Methods for Education Feedback Analysis[J]. IEEE Access, 2022.
[2]Li J, Chen X, Hovy E, et al. Visualizing and understanding neural models in nlp[J]. arXiv preprint arXiv:1506.01066, 2015.
[3]https://www.infoq.cn/article/FLfNXYHX24wbtqwpL3KU
[4]https://zhuanlan.zhihu.com/p/80630002
[5]https://www.ai-indeed.com/aboutNews/1842.html
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。