喵喵爱编程

这个屌丝很懒，什么也没留下！

热门标签

德克萨斯大学奥斯汀分校自然语言处理硕士课程汉化版(第十周) - 自然语言处理应用

作者：喵喵爱编程 | 2024-07-25 00:09:46

踩

1. 问答系统

在自然语言处理领域，问答系统(Question Answering，QA)是一个广泛且重要的研究方向，其目的是让计算机根据给定的上下文或者无上下文的情况下，回答用户提出的问题。QA系统广泛应用于搜索引擎、虚拟助手、在线客服等场景。

QA系统可根据各种维度进行分类：

按照输入类型：

开放域问答(Open-Domain QA)：回答用户提出的任意问题，通常依赖于庞大的知识库或互联网数据。
封闭域问答(Closed-Domain QA)：专注于特定领域的问题，如医学、法律等。

按照上下文：

基于检索的问答(Retrieval-Based QA)：从预先定义的文档集中检索并提取答案。
基于生成的问答(Generative QA)：直接生成答案，通常依赖于神经网络模型。

一个典型的QA系统通常由以下几个部分组成：

问题分析(Question Analysis)：识别问题的类型和关键字，理解用户意图。
文档检索(Document Retrieval)：从文档库中检索与问题相关的文档或段落。
段落选择(Passage Selection)：从检索到的文档中选择最相关的段落。
答案提取(Answer Extraction)或生成：从选择的段落中提取或生成最终答案。

1.1. 信息检索

信息检索(Information Retrieval, IR)是一个广泛的领域，涉及到从大规模数据集中获取有用信息的过程。信息检索的目标是提供用户所需的信息，它通过分析和组织大规模的数据集（如文本、图像、音频、视频等），使用户能够快速找到所需的信息。文档检索是信息检索的一个子领域，具体指从文本文档集合中找到与用户查询最相关的文档。

文档检索(Document Retrieval, DR)是问答系统中的关键步骤，目的是从大量的文档库中找到与用户问题最相关的文档或段落。文档检索方法的发展从早期的简单关键词匹配到如今的复杂深度学习模型，极大提升了检索性能。

以下是文档检索的一些常用方法：

布尔检索(Boolean Retrieval)：使用布尔逻辑(AND、OR、NOT)进行查询。例如，查询 “cat AND dog” 只返回同时包含"cat"和"dog"的文档。优点是简洁、直观，适用于结构化查询。缺点是无法衡量文档的相关性，返回结果较为生硬，用户体验较差。

词频-逆文档频率(TF-IDF)：结合词频(TF)和逆文档频率(IDF)来衡量词语的重要性。TF表示某词在文档中的出现频率，IDF表示词语在整个文档库中的普遍程度。优点是相对简单有效，常用于初步检索和特征工程。缺点是忽略了词语的顺序和语义关系。

向量空间模型(Vector Space Model, VSM)：将文档和查询表示为向量，以余弦相似度(Cosine Similarity)衡量文档与查询之间的相似度。计算方法是每个词在文档中的TF-IDF值作为向量的一个维度，然后整体作为文档向量表示。优点是较好的捕捉文档和查询的相似度。缺点是仍然忽略了词语的顺序和深层语义关系。

BM25(Best Matching 25)：BM25是一种改进的概率检索模型，综合了词频(TF)和文档长度等因素，提供了一种加权检索方式。优点是对文档长度和词频进行了异常处理，提高了匹配精度。缺点是仍然依赖关键词匹配，对语义信息的捕捉较弱。
$\text{BM25}(q, D) = \sum_{i=1}^{n} \text{IDF}(q_i) \cdot \frac{f(q_i, D) \cdot (k_1 + 1)}{f(q_i, D) + k_1 \cdot (1 - b + b \cdot \frac{|D|}{\text{avgdl}})}$

神经信息检索(Neural Information Retrieval)：利用深度学习方法，捕捉文档和查询的深层语义关系。常用模型有，DSSM(Deep Structured Semantic Model)采用深度网络分别将查询和文档表示为向量，然后计算它们之间的相似度。DRMM(Deep Relevance Matching Model)专注于局部匹配信息，逐级捕捉匹配的细节。

基于预训练语言模型的检索方法，以BERT为例，BERT预训练模型捕捉了深层次的语义信息。一种方法是直接BERT语义搜索，使用BERT将文档和查询转化为嵌入向量，通过计算向量相似度进行检索。还有一种方法是二阶段检索(Re-Ranking)，第一阶段使用传统检索方法如BM25，第二阶段使用BERT进行文档重排序。优点是捕捉到更丰富的语义信息，提升检索精度。缺点是计算复杂度较高，查询时间较长。

1.2. 机器阅读理解

答案提取是问答系统中的关键步骤，其目的是从检索到的文档或段落中识别并提取出能够回答用户问题的具体答案。答案提取的方法主要分为提取式(Extractive)和生成式(Generative)两大类。生成式方法在大模型之前效果有限，在大模型之后就成了核心了，以至于名字都已生成为核心了，就是大模型时代的检索增强生成(Retrieval Augmented Generation)。因此以下主要介绍抽取式答案提取，即机器阅读理解(Machine Reading Comprehension, MRC)。

传统方法包括：规则和模板匹配，基于事先定义的规则和模板识别答案。例如，通过正则表达式匹配日期、数字、实体等。基于词汇重叠和相似度计算：通过计算问题和文本中的词汇重叠度或相似度进行答案提取，典型方法包括TF-IDF、BM25等。

深度学习方法有：指针网络(Pointer Networks)通过端到端的神经网络直接从文本中选择答案的起始和结束位置。例如BiDAF(Bidirectional Attention Flow)模型。跨度提取(Span Extraction)使用模型预测文本中的一个连续片段作为答案。例如SQuAD数据集中广泛应用的模型。

预训练语言模型方法以BERT为例，BERT通过预训练的大规模语言模型，编码问题和文本的复杂语义关系，从而高效地进行答案提取。这类方法在各种公开QA数据集上表现优越，大大提升了答案提取的准确性。BERT的答案提取过程：

输入处理：将问题和文本拼接，并添加特殊标记（[CLS]、[SEP]）。
编码表示：使用BERT模型将整个输入序列编码为高维向量表示。
位置预测：在编码表示的基础上，直接预测答案的起始和结束位置。

1.3. 多跳问答

多跳问答(Multi-hop Question Answering, Multi-hop QA)是一种高级问答任务，它要求系统在不同的文档或文本片段之间进行信息整合，以回答复杂的、需要多步推理的问题。与单一文档或单步问答（单跳问答）相比，多跳问答要求系统能够处理更复杂的推理链条，正确理解和关联多个相关信息源。

多跳问答指的是这样一种情况：一个问题无法单靠一个文档或段落中的信息回答出来，而需要从多个文档或多个文本片段中提取和整合信息。例如，问“马云的公司创建于哪一年？”，可能需要从两个文档中分别找到“马云是阿里巴巴的创始人”和“阿里巴巴创建于1999年”，然后结合起来回答问题。再比如，问题：“莎士比亚的出生地和哥伦布发现新大陆的年份相差多少年？”需要的信息：1. 莎士比亚的出生年份（1564年）2. 哥伦布发现新大陆的年份（1492年）。最终回答：（1564-1492）= 72年

多跳问答的挑战：

综合推理：需要跨越多段文本进行推演和整合，要求系统具备强大的逻辑推理能力。
信息检索：需要从大量文档中正确识别和筛选相关段落，确保信息的完整和相关。
词语消歧和指代消解：处理同一实体的不同词汇表达方式，以及解决代词如“他”、“她”等的指代问题。
信息冗余：不相关的信息可能干扰答案的提取和推理，需要过滤掉无关数据。

多跳问答系统通常由多个模块组成，每个模块完成特定的任务。典型的系统架构包括以下步骤：

问题分析(Question Analysis)：解析问题类型，确定问题的类型，如时间、位置、数量等。关键词提取，抽取关键实体和关系词。
文档检索(Document Retrieval)：初步检索，使用传统检索方法如倒排索引、BM25等，快速从大量文档中筛选出初步相关的文档或文本片段。层级检索，根据初步筛选出的结果，进行更细致的文档过滤和排序。
段落选择(Passage Selection)：段落评分，通过关键词匹配和语义相似度计算，对文档中的段落进行排名，选择最相关的多个段落。跨文档关联，识别和连接不同文档中相关联的信息片段。
多跳推理(Multi-hop Reasoning)：利用图神经网络(Graph Neural Networks, GNN)构建一个知识图谱，节点代表实体或概念，边代表它们之间的关系，通过图结构进行多跳推理。或者利用记忆网络(Memory Networks)，记录中间步骤或已知信息，通过多层记忆进行推理。还可以使用强化学习(Reinforcement Learning, RL)，通过学习合理的多跳路径，从而优化推理过程。
答案抽取(Answer Extraction)：综合分析结合多个片段的信息，进行逻辑推理，提取最终答案。最终进行答案整合，验证和整合多跳推理的结果，生成最终答案。

问答系统相关研究

MCTest: A Challenge Dataset for the Open-Domain Machine Comprehension of Text

SQuAD: 100,000+ Questions for Machine Comprehension of Text

Adversarial Examples for Evaluating Reading Comprehension Systems

Reading Wikipedia to Answer Open-Domain Questions

Latent Retrieval for Weakly Supervised Open Domain Question Answering

Natural Questions

HotpotQA: A Dataset for Diverse, Explainable Multi-hop Question Answering

Understanding Dataset Design Choices for Multi-hop Reasoning

Learning to Retrieve Reasoning Paths over Wikipedia Graph for Question Answering

2. 对话系统

自然语言处理中的对话系统(Dialogue Systems)或者聊天机器人(Chatbots)是能够与人类进行自然语言交互的计算机程序。它们可以用于多种场景，如智能客服、信息查询、虚拟助手等。

对话系统分类：

任务导向型对话系统(Task-Oriented Dialogue Systems)：目的是帮助用户完成特定任务，如预订酒店、查询天气、在线购物等。其特点是往往具有明确的对话结构和目标，受限于预定义的任务范围。
开放域聊天机器人(Open-Domain Chatbots)：目的是进行开放领域的自由对话，没有特定任务或目标。其特点是对话范围广泛，回答多样，有更高的创造性和灵活性。

一个典型的对话系统通常包括以下几个主要组件：

自然语言理解(Natural Language Understanding, NLU)

意图识别(Intent Recognition)：识别用户的意图或需求，如查询、请求、命令等。
槽位填充(Slot Filling)：提取用户话语中的关键信息或参数，如时间、地点、数量等。
实体识别(Named Entity Recognition, NER)：识别出特定的实体，如人名、地名等。

对话管理(Dialogue Management, DM)

状态追踪(State Tracking)：维护和跟踪当前对话的状态和上下文。一般是通过状态机、记忆网络等存储和更新对话状态。
策略管理(Policy Management)：确定系统在当前对话状态下应采取的动作或响应策略。常见实现有规则导向(Rule-Based)，基于预定义的对话规则和逻辑。以及机器学习导向(Machine Learning-Based)，通过强化学习（如DQN、策略梯度法）优化响应策略。
动作选择(Action Selection)：确定具体的系统动作（如查询数据库、请求更多信息、生成响应等）。根据策略管理结果，选择最适合的动作。

自然语言生成(Natural Language Generation, NLG)

自然语言生成方法有模板生成（使用预定义的模板生成响应）和数据驱动生成（通过机器学习和深度学习模型生成响应）。

其他组件：知识库(Knowledge Base, KB)

存储与对话相关的领域知识和数据，如FAQ、知识图谱、数据库等。

常见的开源工具和框架：

Rasa：特点是开源框架，支持NLU、对话管理和NLG。功能是可用于构建任务导向型和开放域对话系统。
Microsoft Bot Framework：特点是支持多种对话管理策略和多语言能力，集成广泛的第三方工具和服务。功能是提供丰富的API和工具，支持跨平台应用开发。
Google Dialogflow：特点是基于Google云平台，易于使用，支持多语言对话。功能是支持任务导向型对话系统的快速构建和部署。

早期的对话机器人是自然语言处理（NLP）的重要里程碑，这些系统虽然在技术上相对简单，但为现代智能聊天机器人和对话系统奠定了基础。

ELIZA由麻省理工学院的约瑟夫·温森鲍姆在1966年开发，工作原理主要是基于简单的模式匹配和替换规则进行对话。最著名的脚本是模仿罗杰斯心理疗法，这种对话模式常通过反复问用户问题来促进用户的自我表达。

示例对话

用户：我很不开心。
ELIZA：你为什么不开心？
1
2

特点

规则驱动：使用一组预定义的规则和简单的正则表达式进行模式匹配。
限制对话范围：通过将用户的话语与预定义模式匹配，反应一般较为表面。
无理解能力：ELIZA并没有真正理解用户的输入，只是机械地进行匹配和响应。

PARRY由斯坦福大学的肯尼斯·科尔比在1972年开发的，工作原理是使用一组逻辑规则和推理机制来生成对话。PARRY被设计成模仿偏执型精神分裂症患者的思维和行为。

示例对话

用户：你认为有人在跟踪你吗？
PARRY：是的，我感觉很多人都在监视我。
1
2

特点

心理模型：PARRY有一个简化的心理模型，可以通过特定的逻辑和推理规则模拟精神分裂症患者的对话模式。
推理机制：不像ELIZA简单的模式匹配，PARRY可以基于一定的推理机制生成响应。
更具一致性：相比ELIZA，PARRY在特定场景下的对话更加一致和连贯。

Racter由多伦多大学的William Chamberlain和Thomas Etter在1984年开发的，工作原理主要是使用简单的句法结构来生成句子，尝试模拟人类逻辑。Racter基于预定义的文法规则和词汇生成文本。

示例对话

用户：你好，Racter。
Racter：你好，我是Racter，你今天感觉怎么样？
1
2

特点

生成文本：Racter可以生成较为复杂的文本，包括诗歌和短文。
有限理解：尽管文本生成较为复杂，但并不真正理解上下文或语义。

对话系统相关研究

Wizard of Wikipedia: Knowledge-Powered Conversational agents

Task-Oriented Dialogue as Dataflow Synthesis

A Neural Network Approach to Context-Sensitive Generation of Conversational Responses

A Diversity-Promoting Objective Function for Neural Conversation Models

Recipes for building an open-domain chatbot

3. 机器翻译

机器翻译(Machine Translation, MT)是自然语言处理中的一个重要领域，旨在利用计算机自动将一种语言的文本翻译成另一种语言。经过多年的研究和发展，机器翻译经历了几个重要的阶段，从最初的规则基础方法到如今的深度学习模型。

基于规则的方法(Rule-Based Machine Translation, RBMT)：在机器翻译的早期阶段，翻译系统主要依赖于大量的语言学规则和词典。这些系统手动构建规则来解析源语言(source language)文本并生成目标语言(target language)的译文。

特点：

需要大量的人力资源来构建和维护语言规则。
对特定领域、特定语言对的翻译效果较好。
可解释性强，但难以扩展和适应新的语言对。

基于统计的方法(Statistical Machine Translation, SMT)：在20世纪90年代和21世纪初，统计机器翻译成为主流。SMT利用统计模型来自动学习源语言和目标语言之间的翻译规则，通常基于大量的平行文本(Parallel Corpora)。

核心技术：

词对齐(Word Alignment)：确定源语言和目标语言词语之间的对应关系。
语言模型(Language Model)：确定目标语言文本的流利度。
翻译模型(Translation Model)：通过最大化译文的概率生成最佳翻译。

优点：

通过数据驱动方法减少了对手动规则的依赖。
能够处理不同的语言对和领域。

缺点：

对数据质量和数量有较高要求。
翻译结果有时不够自然和连贯。

基于神经网络的方法(Neural Machine Translation, NMT)：进入2010年代，深度学习技术的兴起带来了神经机器翻译的大发展。NMT通过训练神经网络来自动完成翻译任务，取得了显著的进展。

核心技术：

序列到序列(Sequence-to-Sequence, Seq2Seq)模型：包括编码器(Encoder)和解码器(Decoder)，初期模型采用了RNN（循环神经网络）架构。
注意力机制(Attention Mechanism)：提高了长句子翻译的效果，通过选择性关注源语言句子的不同部分，提高了翻译的质量。
变换器(Transformer)模型：使用自注意力机制和并行化计算，极大地提升了翻译效率和质量。Transformer发表的论文《Attention is All You Need》成为该领域的里程碑。

优点：