当前位置:   article > 正文

【笔记】自然语言处理NLP---概论_基于规则和语料库的方法

基于规则和语料库的方法

(from 人文学院开设课程)

1. 自然语言处理概论

1.1 自然语言处理研究的意义、历史与现状

1.1.1 自然语言的特点

  • 任何语言,包括书面语、口语或手语,都是由小的元素(语素或音素)分层递归地组合建构成较大的单元,依次组成音节、词汇、短语和句子,再由此组成段落和篇章。

  • 这种递归组合由语法规则的层次结构决定,人类与其他动物的大脑区别是人类具有运用复杂层次结构模式语言的能力和处理递归结构的能力,同其他物种相比,人类可产生并理解复杂长句。

  • 语言变化无穷,句子无限,但语言的语法类型是有限的,是可以归类、分析、统计和学习的。

  • 从自然语言理解的角度看,句法学是研究句中各单词间的关系,语义学是研究词以及所指内容间的关系,而语用学是研究交互双方所涉及的上下文环境和背景知识,语言学知识包括世界知识、历史知识、常识性知识、各学科门类的专业知识等。

  • 人类的知识是通过记载的文字、音像及自身的经历,经学习、训练、归纳、总结,从具体到抽象、从实践到理论逐步积累、逐步完善而形成的。

  • 人类使用语言的表现形式有书面文字、口语和手语等,口语是人类最早的语言交流形式,其特点是口语语句简单、短小。口语使用的词汇大多数常用词汇,词汇丰富程度低于书面语言。

  • 和口语相比,人类的文字只有几千年的记载历史,最早的汉字是产生于3500年前的甲骨文,是一种象形表意体系的文字,不同于印欧语言的表音体系文字。

  • 部分汉字的意义根据偏旁部首(音旁、 义旁)能在大脑中反应出来,因书面语的语料相对容易获得,对书面语的研究相对更多也更深入。

  • 人类可以高效的使用语言,而计算机处理语言的在性能和效率上均逊色于人脑,

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/394418?site
推荐阅读
相关标签
  

闽ICP备14008679号