赞
踩
NLP问答任务主要包含三个方面:
基于无结构化文本的问答
文档问答
社区问答(FAQ)
基于结构化文本的问答
知识图谱问答
表格问答
视频|图片-文本问答
基于给定的结构化知识库和自然语言问题,给出问题对应的答案
Test-to-SQL技术的含义为:将表格文本转化为SQL查询语句
表格问答核心技术,将自然语言问题转成数据库上可执行的SQL查询语句
常用的是精确匹配正确率
两种评估方法的选取
单轮多领域数据集
多领域(cross-domain):训练/测试集使用的数据库是否相同或交叉
单/多表(multi-table):构成数据库的表的数量,多表涉及到表的检索
简单/复杂:从SQL角度评估,是否包含高级从句、集合操作、嵌套等
当前主流的学习方式有两种,早期研究中还有规则方式
主流方法:
有监督方法,适用更大规模的数据库,但是需要数据中有标注(有SQL语句)
弱监督方法,适合简单的数据集,数据只需给出问题和答案
本质:基于encoder-decoder框架的多输入生成任务
框架基本结构
领域泛化:测试集中数据库未在训练集中出现过
下图例子中处理流程:
所遇到的问题即为:如果进行信息匹配,以及对应到SQL语句
输出结构化:生成的SQL语句在数据库上可执行,即满足数据库结构、SQL语法
下图例子中,涉及到表格查询的嵌套操作,如何写出相应的能够执行的SQL语句也为一大挑战