当前位置:   article > 正文

自然语言处理——基本概念_舆情分析自然语言处理技术基本概念、

舆情分析自然语言处理技术基本概念、

自然语言处理

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。自然语言处理是一门融语言学、计算机科学、数学于一体的科学。因此,这一领域的研究将涉及自然语言,即人们日常使用的语言,所以它与语言学的研究有着密切的联系,但又有重要的区别。自然语言处理并不是一般地研究自然语言,而在于研制能有效地实现自然语言通信的计算机系统,特别是其中的软件系统。因而它是计算机科学的一部分。

自然语言处理研究的内容

  • 机器翻译:实现一种语言到另一种语言的自动翻译。
  • 自动文摘:将原文档的主要内容和含义自动归纳、提炼出来,形成摘要或缩写。
  • 信息检索:信息检索也称情报检索,就是利用计算机系统从海量文档中找到符合用户需要的相关文档。面向两种及两种以上语言的信息检索叫做跨语言信息检索。
  • 文档分类:文档分类也称文本分类或信息分类,其目的就是利用计算机系统对大量的文档按照一定的分类标准(例如主题或内容划分等)实现自动归类。
  • 问答系统:通过计算机系统对用户提出的问题的理解,利用自动推理等手段,在有关知识资源中自动求解答案并作出相应的回答。
  • 信息过滤:通过计算机系统自动识别和过滤那些满足特定要求的文档信息。
  • 信息抽取:指从文本中抽取特定的事件或事实信息,有时候又称事件抽取。
  • 文本挖掘:有时又称数据挖掘,是指从文本中获取高质量文本信息的过程。
  • 舆情分析
  • 隐喻计算:是研究自然语言语句或篇章中隐喻修辞的理解方法。
  • 文字编辑和自动校对:对文字拼写、用词,甚至语法、文档格式等进行自动检查、校对和编排。
  • 作文自动评分
  • 光读字符识别:通过计算机系统对印刷体或手写体等文字进行自动识别,将其转化为电子文本。
  • 语音识别
  • 文语转换:将文字转换成语音。
  • 说话人识别/认证/验证

信息论基本概念

一、熵

在这里插入图片描述
其中,约定0log0=0。
熵又称为自信息,可以视为描述一个随机变量的不确定性的数量。熵最大时,随机变量最不确定。

二、联合熵与条件熵

在这里插入图片描述熵率:在这里插入图片描述

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/知新_RL/article/detail/641179
推荐阅读
相关标签
  

闽ICP备14008679号