赞
踩
AnyQ(ANswer Your Questions) 开源项目主要包含面向FAQ集合的问答系统框架、文本语义匹配工具SimNet。(检索式回答)
AnyQ系统框架主要由Question Analysis、Retrieval、Matching、Re-Rank等部分组成,框架中包含的功能均通过插件形式加入,如Analysis中的中文切词,Retrieval中的倒排索引、语义索引,Matching中的Jaccard特征、SimNet语义匹配特征,当前共开放了20+种插件。AnyQ系统的配置化、插件化设计有助于开发者快速构建、快速定制适用于特定业务场景的FAQ问答系统,加速迭代和升级。 AnyQ的框架结构如下图:
单轮对话有三种形式:基于分析、基于检索、基于生成。
基于分析是比如一个单轮对话针对一个分类问题,或者是一个结构预测的问题,那么检索就是一个匹配问题,生成就是一个翻译的问题。这三种不同的方法它背后的区别就是这个有没有显式的语义表达。
今日头条AI实验室主任李航:自然语言的现状和发展
在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域(domain) ,其中包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等。因而,人机对话系统的一个关键任务就是正确地将用户的输入分类到相应的领域(domain)中,从而返回正确的回复结果。
SMP2018中文人机对话技术评测(ECDT)
意图识别:识别语言的真实意图,将意图进行分类并进行意图属性抽取。意图决定了后续的领域识别流程,因此意图层是一个结合上下文数据模型与领域数据模型不断对意图进行明确和推理的过程,完成意图的补全、意图分类和意图转移工作。整个意图识别按照模型可组合以及进行单独的算法选型
通过对话管理系统的控制,面向不同的领域场景采用不同的领域技术:
阿里小蜜这一年,经历了哪些技术变迁?
脱离人工提炼知识的过程,直接让机器在非结构化文本内容中进行阅读理解,并回答用户的问题,是一个里程碑式的进步。
用传统的自然语言处理方式完成基于机器阅读理解的问答,一般需要先在文本中进行实体和属性的解析,构建出结构化的知识图谱,并在知识图谱基础上进行问答。 主要涉及以下几个过程:
显然,用传统的知识库构建方式来进行机器阅读,虽然其可控性和可解释性较好,但领域垂直特点较强,难以适应多变的领域场景,且技术上需要分别解决多个传统NLP中的难点,如命名实体识别、指代消解、新词发现、同义词归一等,而每个环节都可能引入误差,使得整体误差逐渐扩大。
Facebook的bAbI推理型问答数据集
Microsoft的MCTest选择题数据集
Facebook的CBT完形填空数据集
讯飞和哈工大的中文完形填空数据集
Stanford的SQuAD可变长答案数据集
模型主要包括三部分:
2个统计特征的引入相当于给模型提前提供了先验知识,这将加快模型的收敛速度,整体上,FastQAExt由以下三个部分组成:
Rajpurkar et al. 2016. SQuAD: 100,000+ Questions for Machine Comprehensionof Text
Wang et al. 2016. Machine Comprehension Using Match-LSTM and Answer Pointer
Seo et al. 2016. Bidirectional Attention Flow for Machine Comprehension
Weissenborn et al. 2017. Making Neural QA as Simple as Possible but notSimpler
Wang et al. 2017. Gated Self-Matching Networks for Reading Comprehensionand Question Answering
深度学习要多深,才能读懂人话?|阿里小蜜前沿探索
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。