赞
踩
1.20世纪50年代被作为机器翻译的子问题被首次提出。
2.20世纪70年代,自然语言生成开始为专家系统生成简单的解释,以及为简单的数据库查询返回结果编写的自然语言的答案。
3.20世纪80年代,渐渐的开始成为自然语言处理中的一个独立的研究领域。
4.20世纪90年代,研究者提出统计的语言模型,开始探索从概率的角度出发刻画语言文字,开启了从统计语言建模的新篇章。
5.2003年,Bengio提出前馈神经网络语言模型,改变了传统语言建模的新篇章。
6.2013年,词向量的问世,标志着基于神经网络的语言建模时代的开始。基于神经网络的语言模型开始逐渐占据自然语言生成的统治地位。
7.2017年,Transformer在自然语言处理领域的崛起,彻底的开启了自然语言处理的时代。
8.2023年,大语言模型的崛起,标志者自然语言生成开始实现落地,如标题生成,摘要生成,问题生成等应用。
从大脑中的思考到语言的表达过程,即为自然语言生成的狭义定义。
从无到有的过程,被认为是一项极具挑战的技术。
宽泛定义:在特定的目标下,给定特定的输入信息生成人类可读的语言文本的自动化过程。
自然语言生成随着任务设定的不同,输入的格式多种多样,但是输入的必须是文本信息,一般为
1.上下文段落信息
2.交互目标。
3.任务领域下的知识库。
4.用户模型。
自然语言生成和自然语言理解的区别在于,一个重在理解,一个重在规划。
自然语言理解重在分析,理解输入文本的语义信息和语义意图,从词形、语法、语用、篇章到最后的语义解析,需要在多个假设中选择最有可能的一个或者多个作为最终的输出。例如常见的理解任务为:文本分类、词性标注、语义角色标注、自动问答、阅读理解等。
自然语言生成重在规划和构建,如何生成语句通顺、逻辑相关、符合人类理解的文本。
1.内容选择
2.文本结构化
文本结构化用于决定哪些信息先生成,可以选择树状层次结构化确定表达信息的顺序和结构。
3.句子聚合
确保后续生成的句子流畅性和可读性。
4.词汇化
5.指称表达生成
确定对实体的指称表达,实体引用还可能设计实体的属性的使用,以便在上下文无歧义的指称实体。
6.语言实现
1.机器翻译
2.文本摘要
3.对话生成
4.故事生成
5.散文生成
6.诗歌生成
7.问题生成
8.标题生成
9.多模态到文本生成
10.抽象意义到文本生成
11.图像描述生成
12.无约束生成
13.表格文本生成
14.逻辑表达式生成
语言的可控性的四个维度
1.重复性和通顺性
2.一致性、连贯性、语义冲突
3.信息量、多样性、特异性
4.忠实度、相关性
可控一般使用在多样性方面。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。