搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
IT小白
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
【前端面试题】前端工程化、Webpack、Vite、Git项目管理相关问题
2
世平信息上榜安全牛2018年中国数据库安全矩阵图_安全相容矩阵表
3
第二篇:构建知识图谱的基石:理解本体和数据模型_知识图谱中的本体概念
4
一文读懂!人工智能、机器学习、深度学习的区别与联系!_人工智能、机器学习和深度学习
5
IDEA toString方法输出JSON格式_idea tostring json
6
同一台电脑上同时使用多个Git账号_一台电脑上可以同时登录几个git账号
7
RabbitMQ 面试题及答案整理,最新面试题_rabbitmq面试
8
SQL语句
9
面试总结——dropout以及BatchNorm在训练以及测试的时候不同_dropout一般用在什么时候
10
深入解析 GPT-4o mini:强大功能与创新应用_gpt-4o-mini特点
当前位置:
article
> 正文
说话人识别中的数据需求_四川话数据集
作者:IT小白 | 2024-08-02 21:56:25
赞
踩
四川话数据集
概述
机器学习领域名言“Garbage In, Garbage Out!”不论神经网络多么先进,如果输入是垃圾,那么输出也一定是垃圾
在说话人识别领域,所需的最小数据单元,包括:
一段只包含单一说话人语音的音频,被称为Utterance(话语)
该段音频的说话人标签,能够唯一地在整个数据集中标识该说话人
怎么样的数据不是Garbage呢?或者说,如何评价一个数据集的质量呢?有以下这些指标:
说话人的数量
每个说话人的话语个数
文本的多样性
口音和语调的多样性
录音设备和声学环境的多样性
数据的正确性
说话人的数量、每个说话人的话语个数
几乎可以肯定:运行时要识别的说话人,不会出现在数据集中。因此说话人的数量,对系统的泛化性能非常重要
用于学术研究的数据集通常包含数千个说话人,例如:VoxCeleb,而实际落地的系统至少需要数万个说话人
在训练和测试时,需要正样本和负样本
说话人的数量决定了负样本的数量,说话人的数量越多越好
每个说话人的话语个数决定了正样本的数量,通常每个人有10~100个话语即可
文本多样性
文本多样性指:
发音多样性
词汇多样性
话题多样性
对于文本相关的说话人识别,文本多样性是不重要的
而对于文本无关的说话人识别,如果运行时的文本,是数据集中未出现过的,那么系统性能会很差。比如:古诗文本的数据集,不能用于经济新闻的说话人识别
口音和语调的多样性
使用普通话数据集训练的系统,在遇到粤语、闽南语、四川话等语言时,识别效果会差
使用新闻播音数据集训练的系统,在遇到电竞、体育直播这种语速快、情绪波动大,行业黑话多的场景时,识别效果会差
录音设备和声学环境的多样性
不同的录音设备录制的音频,频谱分布和音频质量会有比较大的差别,数据集应尽可能覆盖不同的录音设备,包括:
手机麦克风
电脑麦克风
录音棚麦克风
不同的声学环境,会形成不同的噪声和混响,数据集应尽可能覆盖不同的声学环境,包括:
街头
商店、餐厅
车内、家中
歌剧院
数据的正确性
数据的正确性包括:
音频的正确性
音频文件是否破损
音频内容是语音还是纯噪声
音频是否只包含单一说话人
说话人标签的正确性
标签是否发生反转,即属于说话人A的话语被标注成了说话人B的话语
数据的正确性是难以达到100%的,越是大的数据集就越是会出现数据错误,著名的ImageNet ILSVRC 2012就存在至少十万个数据错误
音频错误可视为一种离群点噪声,标签错误可视为一种标签反转噪声,不同的损失函数对不同的噪声鲁棒性不一样,下图是
Deep Face Recognition: A Survey
中,对数据错误的讨论:
总而言之,数据错误越少越好,保证数据正确性很要必要,在错误的数据上做数据增强,只会创造更多Garbage
数据采集
不同于ImageNet、人脸等数据集,说话人识别的数据集是无法人工标注的,因为人类难以根据人的语音,辨认人的身份
要采集说话人识别的数据集,有两种途径:
在录音阶段就进行标注
利用视频数据里的人脸识别信息,对视频里的说话人进行标注
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/IT小白/article/detail/920132
推荐阅读
article
如何将
iPhone
视频
快速
传输
至
电脑
_
iphone
手机
视频
传
电脑
最快的办法...
本文介绍了如何通过iTunes备份、iCloud云同步、CoolmusteriOSAssistant、AirDrop以及...
赞
踩
article
【AI
大
数据
计算原理与代码实例讲解】
Yarn
_
yarn
数据
处理
...
【AI
大
数据
计算原理与代码实例讲解】
Yarn
1.背景介绍在
大
数据
时代,
数据
的处理和分析变得至关重要。
Yarn
(Yet A...
赞
踩
article
第17篇:
Elasticsearch
精确
查询
与
全文
查询
_
elasticserch
一个
查询
实现
精确
和...
目前国内有大量的公司都在使用
Elasticsearch
,包括阿里、京东、滴滴、今日头条、小米、vivo等诸多知名公司。...
赞
踩
article
python
实现
之初等
函数
二——
反
函数
...
一般来说,设
函数
y=f(x)(x∈A)的值域是C,若找得到一个
函数
g(y)在每一处g(y)都等于x,这样的
函数
x= g(...
赞
踩
article
Linux
i
p
t
a
bles
命令详解_
sudo
i
p
t
a
bles
-
a
in
p
ut -
p
tc
p
...
语法:
i
p
t
a
bles
(选项) (参数)
i
p
t
a
bles
命令选项输入顺序:
i
p
t
a
bles
-t 表名 <-A/I/D...
赞
踩
article
笔记本
-
数据分析
百宝箱_
rttwix
...
本文为我在处理数据时,积累的各种技巧与操作,可以当作工具,遇到不会的操作直接查,尤其是Pandas经验最丰富,基本上可以...
赞
踩
article
GitHub
学生
认证
教程,使
用
GitHub
Copilot
_
用
githuhb
账号注册后如何进行
认证
...
使
用
Copilot
需要过
GitHub
学生
认证
,我也在网上找了许多教学,把我遇到的一些问题分享一下。_
用
githuhb
账号...
赞
踩
article
[
Linux
安全
运维]
LAMP
环境搭建保姆级教学(
Apache
+
MySQL
+
PHP
) ~...
LAMP
是一种网站技术,可以实现动态的网站页面部署。文章包含了
LAMP
的搭建过程:
Apache
httpd、
MySQL
...
赞
踩
article
linux
系统下,配置
开机
自启
脚本
常见的5种方法_
linux
自启
动
脚本
...
Linux
开机
自启
是指在Linux系统启动时,自动运行一些指定的程序或服务。这些程序或服务可以是系统自带的,也可以是用户...
赞
踩
article
【云原生】
数据库
忘记
密码
怎么办
?...
想必大家会问为什么最后一行进程不强制终止呢?其实是因为最后一行的进程就是我们查找与mariadb相关进程的命令的进程,无...
赞
踩
article
数据库
连接池
的
理解
和
使用
_
什么
是
数据库
连接池
?如何
使用
?...
一、
什么
是
数据库
连接池
?官方:
数据库
连接池
(Connection pooling)是程序启动时建立足够
的
数据库
连接,并将...
赞
踩
article
LivePortrait
:一张照片
生成
生动
视频
,
精准操控眼睛和嘴唇动作 本地
一键
整合包下载_live...
LivePortrait
,
这个名字听起来就像是魔法
,
但它其实是现实世界中的黑科技。想象一下
,
你那尘封已久的相册里
,
那些定...
赞
踩
article
Python
的
输入
与
输出
_关于
python
的编程
print
数据格式化
输出
a=7...
Python
的
输入
与
输出
,持续更新【
Python
零基础入门篇】带大家玩转
Python
!!!_关于
python
的编程pri...
赞
踩
article
java
实现
GPS
定位
数据的提取与
存储系统
...
鲍萍萍,陈光,王朋,王鹏辉(东华大学 信息科学与技术学院 上海 201620)摘要:针对传统的在VC++平台上实现的GP...
赞
踩
article
【软考
系统
架构
设计师
】
知识产权
与
标准化
②
标准化
...
这是一个
系统
架构
设计师
的简明教程,可以快速掌握高频考点和应试技巧,适合想要一次通关的同学!【软考
系统
架构
设计师
】知识产...
赞
踩
article
Unity
OpenCVFor
Unity
安装和
第一个
案例
详解 <一>_
opencv
for
uni...
Unity
OpenCVFor
Unity
安装和
第一个
案例
详解 _
opencv
for
unity
opencv
for
...
赞
踩
article
qt
事件
类型
列表...
这只是部分
事件
类型
,实际上Qt支持的
事件
类型
远不止这些,还包括触摸
事件
、键盘修饰键
事件
、定时器
事件
、剪贴板
事件
、上下文菜...
赞
踩
article
Spring
是如何
解决
循环
依赖的?从底层
源码
入手,详细解读
Spring
框架的
三级
缓存
_
spring
缓...
三级
缓存
是
Spring
框架里,一个经典的技术点,它很好地
解决
了
循环
依赖的问题,也是很多面试中会被问到的问题,本文从
源码
入...
赞
踩
article
语音
识别
之
GMM
-
HMM
模型
(三):
GMM
-
HMM
模型
应用于
语音
识别
任务
原理详解_
gmm
适合处理的语...
写在前面都知道
语音
识别
有
GMM
-
HMM
模型
,也分别了解了什么是:
GMM
(混合高斯
模型
)https://blog.csdn...
赞
踩
article
spring
boot 项目整合 AI (
文心
一
言)_
spring
ai
接入
文心
一
言...
第四步:调用调试——百度智能云登录成功——点击个人中心——安全认证——点击显示输入验证码获取Access Key和Sec...
赞
踩
相关标签
iphone
ios
计算科学
神经计算
深度学习
神经网络
大数据
人工智能
大型语言模型
AI
AGI
LLM
Java
Python
架构设计
Agent
RPA
elasticsearch
搜索引擎
big data
qt
数据可视化
html
可视化
less