带你了解自然语言生成的研究背景_自然语言处理的研究背景

作者：花生_TL007 | 2024-05-22 03:41:25

踩

自然语言处理的研究背景

一.自然语言处理的背景概述

1.1 背景概述

1.20世纪50年代被作为机器翻译的子问题被首次提出。
2.20世纪70年代，自然语言生成开始为专家系统生成简单的解释，以及为简单的数据库查询返回结果编写的自然语言的答案。
3.20世纪80年代，渐渐的开始成为自然语言处理中的一个独立的研究领域。
4.20世纪90年代，研究者提出统计的语言模型，开始探索从概率的角度出发刻画语言文字，开启了从统计语言建模的新篇章。
5.2003年，Bengio提出前馈神经网络语言模型，改变了传统语言建模的新篇章。
6.2013年，词向量的问世，标志着基于神经网络的语言建模时代的开始。基于神经网络的语言模型开始逐渐占据自然语言生成的统治地位。
7.2017年，Transformer在自然语言处理领域的崛起，彻底的开启了自然语言处理的时代。
8.2023年，大语言模型的崛起，标志者自然语言生成开始实现落地，如标题生成，摘要生成，问题生成等应用。

1.2 自然语言生成的定义

从大脑中的思考到语言的表达过程，即为自然语言生成的狭义定义。
从无到有的过程，被认为是一项极具挑战的技术。

二.基本定义与研究范畴

宽泛定义：在特定的目标下，给定特定的输入信息生成人类可读的语言文本的自动化过程。
自然语言生成随着任务设定的不同，输入的格式多种多样，但是输入的必须是文本信息，一般为
1.上下文段落信息
2.交互目标。
3.任务领域下的知识库。
4.用户模型。

三.自然语言生成和自然语言理解

自然语言生成和自然语言理解的区别在于，一个重在理解，一个重在规划。
自然语言理解重在分析，理解输入文本的语义信息和语义意图，从词形、语法、语用、篇章到最后的语义解析，需要在多个假设中选择最有可能的一个或者多个作为最终的输出。例如常见的理解任务为：文本分类、词性标注、语义角色标注、自动问答、阅读理解等。
自然语言生成重在规划和构建，如何生成语句通顺、逻辑相关、符合人类理解的文本。

四.传统的模块生成框架

1.内容选择
2.文本结构化
文本结构化用于决定哪些信息先生成，可以选择树状层次结构化确定表达信息的顺序和结构。
3.句子聚合
确保后续生成的句子流畅性和可读性。
4.词汇化
5.指称表达生成
确定对实体的指称表达，实体引用还可能设计实体的属性的使用，以便在上下文无歧义的指称实体。
6.语言实现

五.典型的自然语言生成任务

1.机器翻译
2.文本摘要
3.对话生成
4.故事生成
5.散文生成
6.诗歌生成
7.问题生成
8.标题生成
9.多模态到文本生成
10.抽象意义到文本生成
11.图像描述生成
12.无约束生成
13.表格文本生成
14.逻辑表达式生成

七.自然语言生成的可控性

语言的可控性的四个维度
1.重复性和通顺性
2.一致性、连贯性、语义冲突
3.信息量、多样性、特异性
4.忠实度、相关性
可控一般使用在多样性方面。

声明：本文内容由网友自发贡献，不代表【wpsshop博客】立场，版权归原作者所有，本站不承担相应法律责任。如您发现有侵权的内容，请联系我们。转载请注明出处：https://www.wpsshop.cn/w/花生_TL007/article/detail/606074