赞
踩
全文共2702字,预计学习时长5分钟
人类的表达是复杂多面的。例如,说话者不仅通过语言进行交流,还会用到韵律、语调、面部表情和肢体语言。这就是我们更喜欢举行现场的商务会议而不是电话会议,以及在选择电话会议或发短信时会优先考虑电话会议的原因。人们离得越近,通信带宽就越大。
语音识别软件近年来得到快速发展。这项技术现在可以很好地识别语音,并将它们拼接在一起来重现口语单词和句子。但是,简单地将语音翻译成文本,并不能完全概括说话者的信息。除面部表情和肢体语言外,与音频相比,文本捕捉情感意图的能力非常有限。
笔者最初选择构建一个声音情感传感器,是因为它似乎是一个妙趣横生的项目。尽管反复思量,但还是意识到,通过音频感知情感有一些非常有趣的应用。想象一下,如果你的智能家居设备可以播放与你的情绪相符合的歌曲,例如在悲痛难耐时播放振奋人心的歌曲;客户服务部门可以通过情绪检测来培训员工,或者衡量客户是否在服务呼叫过程中变得更满意。
数据
本文用以下三种数据集来构建情感分类器:RAVDESS(https://smartlaboratory.org/ravdess),TESS(https://tspace.library.utoronto.ca/handle/1807/24487)和SAVEE(http://kahlan.eps.surrey.ac.uk/savee/Download.html),它们都免费向公众开放(SAVEE的注册过程很简单)。
这些数据集包含七种常见类型的音频文件:中立、快乐、悲伤、愤怒、恐惧、厌恶和惊讶。笔者共听了由30位男女演员制作的4,500个标记音频文件,总时长超过160分钟。在这些文件中,男女演员会通过一些短语来表达特定的情感意图。
特征提取
接下来,必须找到可以从音频中提取的有用功能。最初笔者想过使用短时傅里叶变换来提取频率信息。然而,相关研究表明,傅立叶变换在语音识别应用方面存在很大缺陷。其原因是,傅立叶变换虽然是声音的一种很好的物理表示,但并不代表人类对声音的感知。
从音频中提取特征的更佳方法是使用梅尔频率倒谱系数ÿ
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。