赞
踩
本系列文章会介绍机器阅读理解相关技术和模型。主要按照以下线路:
NLP四大基本任务:
阅读理解一般基于NLU(自然语言理解)和NLG(自然语言生成),是比较特殊的,无法简单的归类与上面某类。
阅读理解 指通过阅读从文本中抽取信息并理解意义的过程。
机器阅读理解(Machine Reading Comprehension,MRC) 是QA问题的子集,含有contexts,通过交互从文字中提取与构造文章语义。
机器阅读理解
给定上下文 C C C和问题 Q Q Q,需要模型给出关于问题 Q Q Q的正确答案 A A A,通过学习某个函数 F \mathcal{F} F,比如 A = F ( C , Q ) A=\mathcal{F}(C,Q) A=F(C,Q)。
典型的应用场景有:搜索引擎、机器问答&智能客服等。
机器阅读理解也有四大任务:
完形填空 从原文中除去若干单词或实体,需要模型填入正确的单词或实体。
单项选择 从给定的若干选择中选出正确答案。
答案抽取 回答限定是文章的一个子句,需要模在文章中标注正确答案的起始和终止位置。
片段抽取
给定包含 n n n个单词的上下文 C = { t 1 , t 2 , ⋯ , t n } C=\{t_1,t_2,\cdots,t_n\} C={t1,t2,⋯,tn},和问题 Q Q Q,片段抽取(span extraction)需要从上下文 C C C中抽取连续的子序列 A = { t i , t i + 1 , ⋯ , t i + k } A=\{t_i,t_{i+1},\cdots,t_{i+k}\} A={ti,ti+1,⋯,ti+k}作为问题 Q Q Q的答案,通过学习一个函数 F \mathcal{F} F,使 A = F ( C , Q ) A=\mathcal{F}(C,Q) A=F(C,Q)。
自由回答 不限定模型生成答案的形式,允许模型自由生产数据(自己组织语言回答问题)。
下面列出各任务对应的数据集:
总体架构如上。
准确率
Accuracy
=
n
m
\text{Accuracy} = \frac{n}{m}
Accuracy=mn
P = precision = T P T P + F P R = recall = T P T P + F N F1 = 2 × P × R P + R \text{P} = \text{precision} = \frac{TP}{TP +FP} \\ \text{R} = \text{recall} = \frac{TP}{TP +FN} \\ \text{F1} = \frac{2 \times P \times R}{P + R} P=precision=TP+FPTPR=recall=TP+FNTPF1=P+R2×P×R
R l c s = L C S ( X , Y ) m P l c s = L C S ( X , Y ) n F l c s = ( 1 + β ) 2 R l c s P l c s R l c s + β 2 P l c s R_{lcs} = \frac{LCS(X,Y)}{m} \\ P_{lcs} = \frac{LCS(X,Y)}{n} \\ F_{lcs} = \frac{(1+\beta)^2R_{lcs} P_{lcs}}{R_{lcs} + \beta^2P_{lcs}} Rlcs=mLCS(X,Y)Plcs=nLCS(X,Y)Flcs=Rlcs+β2Plcs(1+β)2RlcsPlcs
其中 m m m指标准答案长度, n n n指模型答案长度。
文本特征工程一般应用在机器学习模型上,而深度学习模型一般不需要。
推荐阅读论文Neural Machine Reading Comprehension: Methods and Trends 2
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。