赞
踩
总结了自然语言处理的概念、发展历史、研究方法、基础研究的四个层次、应用领域、预测与展望。
自然语言处理(Natural Lan-guage Processing,NLP)是将人类交流沟通所用的语言经过处理转化为机器所能理解的机器语言,是一种研究语言能力的模型和算法框架,是语言学和计算机科学的交叉学科。
四个阶段:
中文信息处理主要是对字、词、段落或篇章进行处理。
获取预料
对语料进行预处理
特征化(向量化)
模型训练
有监督、半监督和无监督学习模型
训练模型时可能会出现过拟合和欠拟合的状况
过拟合
欠拟合
对效果进行评价
句法分析的主要任务是为了确定句子中各组成成分之间的关系,也就是其句法结构,技术实现上主要分为修辞结构分析和依存关系分析,功能上可分为完全句法分析和局部句法分析。
修辞结构分析
依存关系分析
完全句法分析
局部句法分析
对于不同的语言单位,语义分析有着不同的意义。
语义分析是目前 NLP研究的重点方向。
语用分析主要是把文本中的描述和现实相对应,形成动态的表意结构。
语用分析有四大要素:发话者、受话者、话语内容和语境。
有两方面的任务[8]
是根据一套分类规则对文本进行自动分类的过程
是一种通过判断文本情感极性去表征文档的技术
是通过计算机将一种语言翻译到其他语言
是采用互联网、大数据和机器学习等技术来研究社会问题,并寻找出一种合适的方法去解决问题。
信息抽取是将嵌入在文本中的非结构化信息提取并转换为结构化数据的过程,从自然语言构成的语料中提取出命名实体之间的关系,是一种基于命名实体识别更深层次的研究[9]
。
信息抽取的主要方法…
信息抽取的主要工作…
自动文摘是利用计算机按照某一规则自动地对文本信息进行提取、集合成简短摘要的一种信息压缩技术,旨在实现两个目标
自动文摘的分类…
自动文摘生成方法…
理解语言不能光靠逻辑,还要有强大的知识库,需要有这些支撑才能更好的处理数据并对文本进行进一步的理解和分析
- 哈尔滨工业大学刘挺教授在第三届中国人工智能大会上提到:可以使阅读理解作为一个深入探索自然语言理解的平台
- Google 已经推出了这样的测试机,也就是说让计算机理解一篇文章,接下来人类对计算机进行提问,观察计算机的回答能力完成测试。
注:本篇博客为文献学习笔记
参考文献:自然语言处理发展及应用综述_赵京胜
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。