赞
踩
SDS默认指的是面向任务的对话系统(多轮对话),区别于问答系统(单论对话)。
一个口语对话系统是能够用声音与人进行交谈的计算机系统。它有两个在文本对话系统中不存在的基本组件:语音识别器(a speech recognizer module)和文本到语音( a text-to-speech module)模块(文本对话系统通常使用OS提供的其他输入系统)。它可以进一步区别于命令和控制语音系统,它们可以响应请求但不试图保持随时间的连续性。
口语对话系统的复杂程度各不相同。定向对话系统非常简单,并且要求开发人员创建管理任务但可能不符合用户需求的图形(通常是树)。通常基于表单的信息访问系统允许用户具有一定的灵活性(例如,按照指定检索约束的顺序,或者使用可选约束)但是它们的能力受到限制。问题解决对话系统可以允许人类用户参与许多不同的活动,这些活动可以包括信息访问,计划构建和后者的可能执行。
一些系统示例包括:
对话系统中的Pionieers是像AT&T(七十年代的语音识别系统)和CSELT实验室这样的公司,它们在美国DARPA项目结束后领导了八十年代期间的一些欧洲研究项目(例如SUNDIAL)。
口语对话系统领域非常庞大,包括研究(在SIGdial和Interspeech等科学会议上发表)和大型工业部门(有自己的会议,如SpeechTek和AVIOS)。
关于对话系统实现:
代码和学习:
- https://github.com/shawnwun/NNDIAL
- https://github.com/MiuLab/DDQ
-
- * The encoder modules contain:
- - LSTM encoder : an LSTM network that encodes the user utterance.
- - RNN+CNN tracker : a set of slot trackers that keep track of each slot/value pair across turns.
- - DB operator : a discrete database accessing component.
-
- * The decoder modules contain:
- - Policy network : a decision-making module that produces the conditional vector for decoding.
- - LSTM decoder : an LSTM network that generates the system response.
构架:
数据的基本格式:
DB:
输入的是:
输出的是:
训练过程:
https://github.com/shawnwun/NNDIAL/blob/master/nn/nnsds.py
有RL的具体训练步骤,可以看到reward是如何定义的。
参考:
https://blog.csdn.net/yagreenhand/article/details/88669645
https://en.wikipedia.org/wiki/Spoken_dialog_systems
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。