搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
不正经
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
python中的dict是什么数据类型_Python数据类型之字典(dict)
2
Linux环境搭建和安装步骤_vmware-workstation-full-17.0.0-20800274
3
Docker进阶:容器网络、存储,安全和监控以及实践项目_docker创建的网络是可以监控?
4
在CentOS8下安装OpenEuler,以及为OpenEuler安装GUI_openeuler gui
5
eNSP之交换机配置_ensp如何配置交换机
6
centos ping ipv6地址,提示: Address family for hostname not supported,
7
超越Llama2-65B:Mixtral-8x7B MoE大模型微调实践分享
8
异常:java.lang.NoClassDefFoundError: net/sf/ezmorph/Morpher 解决办法
9
Security Onion安全洋葱架构概述
10
鸿蒙开发实战【通话管理】_鸿蒙开发电话拨打状态监听
当前位置:
article
> 正文
语音情感识别(特征、处理、分类方法)--学习笔记
作者:不正经 | 2024-03-31 17:53:48
赞
踩
语音情感识别
将情感划分为两个维度:
activation:
表达情感需要的能量。
比较强烈的情感比如愤怒,喜悦,恐惧。伴随着这类感情可能会有心跳加速,血压升高等等,同时人的语速会变快,音高变高。
比较舒缓的情感比如忧伤,语速可能会降低,高频会减少。
activation类似的感情,比如愤怒与喜悦,则用valence来加以区分。
valence:用何种feature来描述valence尚无定论。因此,在情感识别系统中,强烈的感情与舒缓的感情很好区分,而区分不同类别的情感则还是一个挑战。
语音情感识别中的特征:
特征提取的作用域:局部特征还是全局特征
全局特征在分类的准确率上往往比局部特征表现的要好,同时耗时也更少(特征量较少)。然而全局特征也有许多缺点:
只在分类高兴奋度的情感(high-arousal emotions,也是我们之前说的activation较高的情感)中比较有效,比如在分类anger和joy时,全局特征就会失效。
全局特征会丢失语音的短时信息(temporal information)。
当使用较为复杂的分类器(HMM,SVM等)时,全局变量会因为特征较少而无法进行有效的训练。
因此在复杂的模型中使用局部特征,模型的准确率更好。
还有一种做法是对语音信号根据音素进行分段而不是分帧。研究显示了把分段的特征和全局特征相结合可以一定程度提高是别的准确率。
提取什么样的特征:
Continuous speech features 连续语音特征
pitch-related features:基音相关特征
formants features:共振峰特征
energy-related features:能量相关特征
timing features:时域特征
articulation feature:发音特征
常用的有F0,Energy,Duration,Formants。另外在特征的提取中,除了使用特征还对特征进行一些转换,比如平均,最大最小等
is09特征:对于每一帧信号,提取16个特征和它们的delta,并对这32个特征进行右边的12种变换,得到384维((16x2)x12)的特征向量(每一帧)。
语音质量特征:
voice quality
harsh
tense
breathy
Spectral-based speech features:
LPC
MFCC
LFPC
TEO-based features
Continuous speech features 用来检测high-arousal和low-arousal的情感;频谱特征比如MFCC用来做N-way classification的问题,TEO-based features 用于压力检测;
语音处理:
前处理:
pre-emphasis filter: to equalize the effect of the propagation of speech throungh air.
overlapped frames: to smooth the extracted contours.
Hamming window: to reduce ripples in the spectrum of the speech spectrum.
slient intervals: 语音中的静音间隔也包含情感信息,通常会保留下来。
特征提取
后处理:
正规化 feature normalization,由于方差中包含许多情感信息,normalize后会消除这些特征,需要考虑这一点
降维:
feature selection:找到分类效果最好的子特征。
feature extraction:对原始特征进行mapping到另一空间,从而达到降维效果。
分类方法:
HMM:效果好
GMM:比HMM高效,但不能利用短时特征
神经网络
SVM
Multiple classifer system
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/不正经/article/detail/345502
推荐阅读
article
so
-
vits
-
svc4.1
从零
训练
自己
的
模型
_
so
-
vits
训练
模型
...
so
-
vits
-svc需求GPU,如果电脑没有GPU可以用云端
训练
。如果您没有anaconda,请忽略下文出现的cond...
赞
踩
article
语言
模型
在
问答
系统
中的应用...
非常感谢您提出这个有趣的技术主题。作为一位对计算机科学和人工智能有着深入研究和独到见解的专家,我很高兴能够为您撰写这篇专...
赞
踩
article
Unity
UI
规范...
拥有大量RectMask2D组件的复杂的
UI
,尤其是嵌套时,可能会占用可观的CPU性能来进行边界检查。复杂的
UI
可能会有...
赞
踩
article
评价
度量
指标之
BLEU
,
METEOR
,
ROUGE
,
CIDEr
_
bleu
度量
...
在 VTT (Video to Text) 任务中,需要衡量模型输出的视频描述语句的准确性,因为衡量的对象是一个个的自然...
赞
踩
article
Kaggle
灾难
推文
的
自然语言
处理
-最佳得分详解...
Twitter已成为紧急情况下的重要沟通渠道。智能手机的普及使人们能够实时宣布他们正在观察到的紧急情况。正因为如此,更多...
赞
踩
article
查准率
(
Precision
)和
查全率
(
Recall
)和 P-R
曲线
、
ROC
曲线
...
数据发生倾斜时,准确率判断模型好坏就不那么准确了。比如风控模型中,99个正常用户和1个欺诈用户,用一个把所有用户都识别成...
赞
踩
article
腾讯
AI
八篇论文入选顶级
医学影像
会议
MICC
AI
,涉及
病理
癌症图像分类等...
感谢阅读
腾讯
AI
Lab微信号第87篇文章。本文将解读2019年
医学影像
AI
领域国际顶会
MICC
AI
中
腾讯
AI
的入选论文...
赞
踩
article
计算机
视觉
学习
顺序
_
计算机
视觉
看书
顺序
推荐...
学习
深度
学习
的基本原理和常用的网络结构,如卷积神经网络(CNN)和循环神经网络(RNN)。三维
视觉
是
计算机
视觉
中的一个重...
赞
踩
article
计算机
视觉
知识体系...
一、
计算机
视觉
:三个层次:系统工程方案层、领域任务模块层、基础算法层。三方面知识点:图像处理、机器学习、基础数学与模型。...
赞
踩
article
Python
中文
分词
NLPIR
快速搭建_
python
nlpir
汉语
分词
系统...
前述本篇文章写完需要半个小时,阅读需要十分钟,读完后,你将学会在
Python
中使用
NLPIR
,以及关于使用它的一些有用的...
赞
踩
article
P8709
[
蓝桥
杯
2020
省
A1
]
超级
胶水...
如果尝试其它的方式,得到的结果也是一样的。看完题目,肯定会想到贪心,但是这题不需要贪心也能解决。我们可以采用前缀和来优化...
赞
踩
article
车道
线
检测
——概述...
车道
线
检测
,是自动驾驶中重要的组成部分。该文主要对
车道
线
检测
做了简单的概括和总结。_
车道
线
检测
车道
线
检测
...
赞
踩
article
python
面向对象
高级编程_
python
面向对象
高级编程...
python
面向对象
高级编程。_
python
面向对象
高级编程
python
面向对象
高级编程 ...
赞
踩
article
MaskRCNN
源码
解析
1:整体
结构
概述_
maskrcnn
代码
解读...
MaskRCNN
源码
解析
1:整体
结构
概述
MaskRCNN
源码
解析
2:特征图与anchors生成
MaskRCNN
源码
解析
3...
赞
踩
article
python
面向对象
高级
编程
_Python
面向对象
之
高级
编程
...
7.
面向对象
高级
编程
7.1使用__slots__
python
动态语言,new 对象后绑定属性和方法Tip:给一个实例绑定...
赞
踩
article
Oracle中
grouping
和
grouping
_
id
使用
_
oracle
grouping
_
id
...
1、
grouping
使用使用
grouping
可以判断该行是数据库中本来的行,还是有统计产生的行SQL> select g...
赞
踩
article
学习
笔记【
机器翻译
评测
指标
】
_
常用
的
衡量
机器翻译
质量
的
指标
...
学习
笔记【
机器翻译
评测
指标
】
_
常用
的
衡量
机器翻译
质量
的
指标
常用
的
衡量
机器翻译
质量
的
指标
...
赞
踩
article
【论文速读】| 对大
语言
模型
解决
攻击性
安全
挑战
的实证评估...
本研究全面评价了LLMs在
解决
现实世界中的CTF
挑战
能力,并覆盖了从实际竞赛到完全自动化流程的各个阶段。研究成果不仅支持...
赞
踩
article
《
科技
创新
与
应用
》是什么级别
的
期刊
?是正规
期刊
吗?能评职称吗?...
《
科技
创新
与
应用
》为JST日本科学技术振兴机构数据库(日)等数据库收录
期刊
,创刊以来,始终坚持
创新
性、前沿性、学术性、探...
赞
踩
article
NLP-
one
-
hot
编码...
- **NLP-
one
-
hot
编码 >- **...
赞
踩
相关标签
人工智能
ai
计算科学
神经计算
深度学习
神经网络
大数据
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
ui
unity
游戏引擎
自然语言处理
Kaggle
python
机器学习
计算机视觉