当前位置:   article > 正文

一、自然语言处理基础_抽取式摘要和实体抽取的区别

抽取式摘要和实体抽取的区别

一、自然语言处理发展简史

(一)什么是自然语言处理

自然语言处理(Natural Language Processing,简称NLP)是计算机科学与语言学中关注于计算机与人类语言间转换的领域。人类的语言和计算机的语言存在差距,人类有汉语、英语、法语等多种语言模式,而计算机只懂得0和1,如何让计算机理解人类的语言模式,是NLP领域研究的重点内容。

(二)自然语言处理的发展简史

1950年:计算机科学之父图灵在论文《Computing Machinery And Intelligence》的开篇就提到“机器可以思考吗”这一划时代的问题,从此促成了人类语言与计算机科学的交融。

1957-1970年:自然语言处理开始形成“两大阵营”,基于规则的和基于统计的。基于规则的主要代表为语言学家,他们希望让计算机理解主语,谓语,宾语等语法,从而按照人类的语法规则让计算机理解语言,基于规则的方法最大的问题就是精通语法不一定精通语言。基于统计的方法就是现在的方法,但在此时由于机器的不够强大,发展也比较差。

1994-1999年:基于统计的方法逐渐取得胜利,概率计算开始引入到NLP领域的每个任务中。

2000-2008年:机器学习开始兴起,迅速占领了NLP的主流市场。

2015-至今:人工智能时代到来,深度学习技术开始深刻的改变NLP的未来。

二、自然语言处理的基本任务

(一)NLP领域的典型任务和应用

1. 文本预处理:

  • 分词(Tokenization):将连续的文本分割成独立的词汇单元。
  • 词性标注(Part-of-Speech Tagging, POS):确定每个词在句子中的语法类别。
  • 命名实体识别(Named Entity Recognition, NER):找出文本中的专有名词,如人名、地名、组织机构名等。
  • 句法分析(Syntactic Parsing):分析文本的句法结构,构建语法树或依赖图。

2. 语义分析:

  • 词义消歧(Word Sense Disambiguation, WSD):解决多义词在特定上下文中确切含义的问题。
  • 语义角色标注(Semantic Role Labeling, SRL):识别动词短语中的论元及其角色。
  • 指代消解(Coreference Resolution):确定文本中代词和其他指示词所指的具体实体。

3. 信息提取:

  • 情感分析(Sentiment Analysis):判断文本的情感极性和态度。
  • 主题模型(Topic Modeling):发现文本中的隐含主题。
  • 实体链接(Entity Linking):将文本中的实体与知识库中的条目对应起来。

4. 生成任务:

  • 文本生成(Text Generation):根据给定的输入或条件生成新的文本片段。
  • 机器翻译(Machine Translation, MT):将文本从一种语言自动翻译成另一种语言。
  • 摘要生成(Summarization):自动提炼文本关键信息,生成简短的摘要。

5. 对话系统:

  • 问答系统(Question Answering, QA):设计系统能针对具体问题给出精确答案。
  • 聊天机器人(Chatbots):开发能够模拟人类对话的智能系统。

6. 语音相关的任务:

  • 语音识别(Speech Recognition):将语音信号转化为文字。
  • 语音合成(Text-to-Speech, TTS):将文本转换为可听的语音输出。

7. 其他任务:

  • 信息检索(Information Retrieval, IR):从大量文档中找到与查询最相关的信息。
  • 文本分类(Text Classification):将文本分配至预定义的类别中,如新闻分类、垃圾邮件检测等。
  • 文档检索和排名(Ranking):搜索引擎中的相关性排序。

随着深度学习的发展,NLP领域还出现了更多高级任务和技术,比如基于Transformer架构的预训练模型(如BERT、GPT系列)的应用,这些模型可以进行微调并用于众多下游NLP任务。此外,还有跨模态任务,如图像描述生成(Image Captioning)、视觉问答(Visual Question Answering, VQA)等。

(二)NLP任务的一种分类方式

在博客《Prompt-Tuning——深度解读一种新的微调范式》1.2节中的介绍了一种分类方式,本部分为对1.2节内容的扩展

1、单句分类(Single-text Classification)

常见的单句分类任务有短文本分类、长文本分类、意图识别、情感分析、关系抽取等。

长/短文本分类:直接对句子进行归类,例如新闻分类、主题分类、场景识别等

新闻分类:将给定的新闻文本自动归类到预定义的一组类别或标签中,如“政治、军事、娱乐八卦”等

主题分类:将一篇或多篇文本(如新闻文章、论坛帖子、学术论文、社交媒体帖子等)按照预定义的主题类别进行自动分类

场景识别:场景识别任务是指从文本数据中自动识别和确定文本所描述的特定场景或情境。例如,"在繁忙的咖啡馆里,顾客们享受着午后阳光,一边品尝香浓的拿铁,一边翻阅手中的书籍。店员在吧台忙碌着制作饮品,背景音乐轻快悠扬。"简单的场景识别任务就是将上述文本分类为“休闲场所-咖啡馆”、“时间段-午后”、“活动-餐饮、阅读”、“氛围-轻松愉快”等场景类型。

意图识别:根据给定的问句判断其意图,常用于检索式问答、多轮对话、知识图谱问答等

检索式问答:检索式问答(Retrieval-based Question Answering, QA)是指从大规模文本库中快速找到并返回能够精确回答用户提出问题的信息。

多轮对话:理解用户意图,完成对用户问题的回答

知识图谱问答:知识图谱问答(Knowledge Graph Question Answering, KGQA)是指利用知识图谱这一特定形式的数据资源来理解和回答用户以自然语言提出的问题。知识图谱是一种结构化的知识表示形式,它以图的形式组织实体(如人、地点、事件等)、属性(如姓名、国籍、出生日期等)及实体间的关系(如工作于、出生于、参与等)。在知识图谱问答任务中,系统的目的是理解用户问题的语义,然后在知识图谱中进行查询、推理和路径搜索,以精准地从结构化知识中提取出答案。

情感分析:对评论类型的文本进行情感取向分类或打分

情感分析任务旨在识别和提取文本中蕴含的情感倾向、情绪色彩或主观意见的技术。情感分析旨在量化文本的情感内容,帮助机器理解文本作者的态度、感受、满意度、偏好等主观信息。

情感分析在市场营销、客户服务、舆情监控、产品反馈分析、社交媒体分析等领域有广泛应用,帮助企业和研究人员理解公众对产品、服务、事件、话题等的看法和情绪反应,为决策制定提供有价值的情报。

关系抽取:关系抽取(Relation Extraction, RE)是指给定两个实体及对应的一个描述类句子,判断这两个实体的关系类型。关系抽取的目标是构建结构化的知识表示,如(实体1,关系,实体2)组成的三元组,以便于知识存储、查询、推理和分析。

考虑以下句子:

乔布斯是苹果公司的联合创始人兼首席执行官,他与沃兹尼亚克于1976年创立了苹果公司

在这个例子中,有三个实体,乔布斯、苹果公司、 沃兹尼亚克。关系抽取就需要根据这句话判断实体1“乔布斯”和实体2“苹果公司”的关系,和实体1“乔布斯”和实体2“沃兹尼亚克”的关系。可以得到以下两个三元组:

  • 实体对1:(乔布斯,创立,苹果公司)
  • 实体对2:(乔布斯,联合创始人,沃兹尼亚克)

2、句子匹配/成对分类(Sentence-pair Classification)

常见的匹配类型任务有语义推理、语义蕴含、文本匹配与检索等。给定两个文本,用于判断其是够存在匹配关系。

语义推理/蕴含:判断两个句⼦是否存在推理关系,例如蕴含entailment、矛盾contradiction,中性的neutral三种推理关系

蕴含关系:是逻辑学和自然语言处理中的一个重要概念,用于描述两个语句或命题之间的一种逻辑联系。在逻辑学中,蕴含关系指的是:如果一个语句(称为前提,Premise)为真,则另一个语句(称为结论,Conclusion或假设,Hypothesis)也必定为真。换句话说,如果前提成立,那么结论就不能为假,否则蕴含关系就不成立。这种关系可以用符号表示为:如果前提P蕴含结论Q,则记为 P → Q。当前提为真且结论为假时,蕴含关系不成立,这种情况在逻辑上称为“矛盾”。

例如,前提:“所有鸟都会飞。” 结论:“企鹅不会飞。” 这两句话之间存在矛盾,因此前者并不蕴含后者。

例如,前提:“小明是一位医生。” 结论:“小明拥有医学学位。” 在这个例子中,前提支持了结论,因为通常情况下,成为医生需要具备医学学位,存在蕴含关系。

例如,前提:“所有人都会死。” 结论:“苏格拉底会死。” 这是一个基于一般原则到具体实例的蕴含关系。

 著名的语义推理/蕴含任务数据集和评测基准

  • SNLI(Stanford Natural Language Inference Corpus):大规模英语文本蕴含数据集,包含570K对人类标注的英文句子对,分为蕴含、矛盾、中立三种关系。
  • MultiNLI(Multi-Genre Natural Language Inference):SNLI的扩展版本,包含更多样化的文本来源和风格,提高了模型的泛化能力评估。
  • GLUE(General Language Understanding Evaluation)和 SuperGLUE:综合性NLP任务评估基准,其中包括多个蕴含任务,如MNLI(Multi-Genre Natural Language Inference)、RTE(Recognizing Textual Entailment)等。

文本匹配与检索:输入一个文本,并从数据库中检索与之高相似度匹配的其他句子

3、区间预测(Span Text Prediction)

区间预测常见的任务形式有抽取式阅读理解、实体抽取、抽取式摘要等。给定一个段落(passage)和问题(query),根据query寻找passage中可靠的子序列作为预测答案(注意:是查找而不是生成)。

抽取式阅读理解:给定query和passage,寻找passage中的一个文本区间作为答案

实体抽取:对一段文本中寻找所有可能的实体

什么是实体?

在自然语言处理(NLP)中,实体(Entity)通常指的是文本中具有特定意义和指代对象的词汇或短语,它们代表了现实世界中的具体事物、概念、事件或抽象概念。

(1)命名实体(Named Entities, NEs)

  • 定义:具有特定名称且在特定上下文中具有唯一指代意义的实体。例如,人名、地名、组织机构名、产品名、书名、电影名等。
  • 类别:常见的命名实体类型包括人名(Person)、地名(Location)、组织名(Organization)、时间表达(Time)、日期(Date)、货币金额(Money)、百分比(Percentage)、数量(Quantity)等。在特定领域(如生物医学、法律、金融等)还可能包括特定领域的专有名词,如药品名、疾病名、法律条款等。

(2)概念实体

  • 定义:代表某一类事物或抽象概念的词汇或短语,不一定是具有唯一名称的实体。例如,“猫”代表所有猫这一类动物,“爱情”代表一种情感状态或人际关系类型。
  • 类别:概念实体可能包括类别名词(如动物、植物、疾病类别等)、抽象概念(如情感、价值观、哲学观念等)、专业术语(如科学概念、经济学术语等)。

(3)事件实体

  • 定义:描述具体事件、动作或状态变化的词汇或短语,如“结婚”、“辞职”、“爆发战争”等。事件实体通常涉及动作的执行者(Agent)、受影响对象(Patient)、时间、地点等要素。
  • 类别:事件实体可能按照事件类型(如人生事件、自然灾害、社会事件等)、事件角色(如动作执行者、动作对象、受益者、受害者等)、事件属性(如事件时间、地点、原因、结果等)进行分类。

(4)关系实体

  • 定义:描述实体之间关系的词汇或短语,如“父亲”、“位于”、“属于”等。关系实体连接两个或多个实体,揭示它们之间的逻辑联系或结构关系。
  • 类别:关系实体可能包括亲属关系、地理位置关系、所属关系、因果关系、时间顺序关系等。

一般都是命名实体提取,存在各种实体混用的情况,不太影响

抽取式摘要:给定一个长文本段落,寻找一个或多个区间作为该段落的摘要

4、单分词分类(Single-token Classification)

单分词分类这个名字是我自己翻译的,没有统一的翻译名称,只是我自己觉得这个名字比较合理。其目标是为文本中每一个独立的token(通常指单词、子词、字符或其他预先定义的基本语义单元)分配一个特定的标签或类别。这个任务关注于对文本中个体token级别的属性或特征进行标注,而不是对整个句子或文档进行整体分类。此类涵盖序列标注、完形填空、拼写检测等任务。

序列标注:对给定的文本每个token进行标注,通常有词性标注槽位填充句法分析实体识别等。

词性标注:标记该分词属于什么词性,名词?形容词?动词???

槽位填充:“槽位填充”(Slot Filling)是信息抽取(Information Extraction, IE)领域的一个重要任务。通常指的是对特定类型的实体或信息进行识别并将其填入预定义的结构化模板(或称为槽位结构)中的过程。通过槽位填充,可以从非结构化的文本数据中提取出结构化信息。例如:

  1. a、对话文本:
  2. 用户:我想预订明天晚上8点,花悦庭的4人桌。
  3. b、槽位识别:
  4. 通过命名实体识别模型识别出“花悦庭”是餐厅名称,对应槽位 restaurant_name。
  5. 通过日期时间识别模型识别出“明天晚上8点”是预订时间,对应槽位 reservation_date和reservation_time
  6. 通过数值识别或关键词匹配识别出“4人”是预订人数,对应槽位 party_size
  7. c、槽位填充:
  8. {
  9. "restaurant_name": "花悦庭",
  10. "reservation_date": "明天",
  11. "reservation_time": "晚上8点",
  12. "party_size": "4人",
  13. }

句法分析:分析单词之间的依存关系,如“I”经常和“am”一起出现。还有构建句法树(这个见得少,等以后接触到了再补充

实体识别:识别该分词是否为实体 ,人名、地名、组织机构名?

完形填空:预测给定文本中空位处可能的词

“这部电影很风趣幽默,我全程在笑,我觉得这部电影真是太<masked>”

让模型根据上下文信息来预测<masked>位置应该填充的分词,糟糕?棒?赞?,让模型来预测最可能出现的词。

拼写检测:对给定的文本中寻找在语法或语义上的错误拼写,并进行纠正。

5、文本生成(Text Generation)

文本生成任务常用于生成式摘要、机器翻译、问答,其目标是让计算机根据给定的输入或条件自动生成符合人类语言习惯、有意义且连贯的文本输出。

生成式摘要:在文本摘要中,通过生成方法获得摘要。(跟上面的抽取式摘要是不同的

机器翻译:给定原始语言的文本,来生成目标语言的翻译句子

问答:给定query,直接生成答案

单向和双向模型

单向自回归语言模型(Unidirectional Autoregressive Language Model)

单向自回归语言模型是一种基于概率统计的模型,它仅沿单一时间方向(通常是向前或向后)处理文本序列。模型在预测当前词时,仅依赖于之前(或之后)的有限数量的词,而不考虑未来(或过去)的上下文信息。典型代表包括传统的n-gram模型和基于深度学习的模型如GPT系列。

  • 高效训练与推理:由于模型在预测每个词时只需关注单向的上下文,训练和推理过程相对简单且计算效率较高。
  • 清晰的概率解释:自回归模型直接建模了每个词作为条件概率分布的属性,即给定前面的词序列,预测下一个词的概率。这种明确的概率框架有助于理解和解释模型行为。
  • 自然的生成过程:在文本生成任务中,自回归模型可以逐词生成文本,每一步都基于先前生成的词,形成自然的生成流程,有利于控制生成文本的连贯性和一致性。
  • 适用于流式处理:对于实时或在线应用,如语音识别的解码阶段,自回归模型能够随着新输入的到来即时更新预测,无需等待整个序列完成。

非自回归双向语言模型(Bidirectional Non-Autoregressive Language Model)

非自回归双向语言模型能够在生成或理解文本时同时利用前后文的所有相关信息,而不需要像自回归模型那样按顺序逐个生成词。这类模型通常基于Transformer架构,如BERT和XLNet,它们在训练阶段通过遮蔽(masking)或重构等技巧允许模型看到整个序列的信息,但在预测时一次性输出整个序列或部分序列。

  • 全局上下文感知:模型能同时捕捉到文本序列的前向和后向上下文,这对于许多自然语言理解(NLU)任务至关重要,因为这些任务往往需要综合考虑句子的前后关联来做出准确判断。
  • 并行化计算:非自回归模型在生成或预测时可以实现高度并行化,极大地缩短了推理时间,特别是在大规模文本生成任务中,相较于自回归模型的逐词生成,速度优势更为明显。
  • 增强的表达能力:由于能够同时利用上下文的双向信息,模型在理解复杂语义关系、捕捉句法结构和识别实体间依赖等方面表现出更强的表达能力,有助于提升任务性能。
  • 多任务适应性:非自回归双向模型如BERT经过预训练后,可以方便地通过添加少量任务特定层进行微调,适应多种NLU任务,如分类、问答、命名实体识别等,展现出良好的迁移学习能力。

双向模型和单向模型之所以被分别称为“非自回归”和“自回归”,主要源于它们处理文本序列时信息流向的不同以及在生成或预测过程中是否遵循严格的自回归性质。 

单向自回归语言模型

  1. 信息流向:单向模型沿着一个固定的方向(通常是向前或向后)处理文本序列。例如,在前向自回归模型中,模型在预测当前词时,只依赖于之前已经出现的词。换句话说,信息从左向右(或从右向左)流动,且每个位置的预测仅与该位置之前的词有关联。

  2. 自回归性质:自回归模型的核心特征在于其生成过程严格遵循时间顺序。在预测序列中的第t个词时,模型依据的是到t-1时刻为止的所有已知信息(即之前的所有词)。这种逐词递归预测的方式体现了自回归(Autoregressive, AR)的本质:当前值依赖于过去值。在生成新文本时,模型会先生成第一个词,然后基于已生成的第一个词预测第二个词,依此类推,直至生成完整序列。

非自回归双向语言模型

  1. 信息流向:双向模型在处理文本时能够同时利用序列的前向和后向上下文信息。这意味着模型在分析或预测某个位置的词时,既考虑该词前面的所有词,也考虑后面的所有词。这种信息流动模式打破了单向的约束,使得模型具有全局视野,能够理解文本的完整语境。

  2. 非自回归性质:非自回归(Non-Autoregressive, NAR)模型在预测或生成时并不严格遵循自回归的过程。在预测整个序列时,模型可以一次性输出所有词的预测结果,无需按照时间顺序逐词递归。这是因为模型在设计上允许其在训练和/或推理阶段访问整个序列的信息,而不是受限于自回归的条件依赖。例如,BERT等模型通过遮蔽(Masked Language Modeling, MLM)训练,使模型学会在给定部分被遮蔽的文本情况下预测被遮蔽的部分,这一过程中模型同时利用了未被遮蔽部分的上下文信息。

总结起来,单向模型因其信息处理的单向性和生成过程中的逐词递归依赖而被称为“自回归”。相反,双向模型由于能够同时利用文本序列的前后信息且在预测时不遵循严格的自左向右(或自右向左)顺序,故被称作“非自回归”。

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/weixin_40725706/article/detail/1003705
推荐阅读
相关标签
  

闽ICP备14008679号