搜索
查看
编辑修改
首页
UNITY
NODEJS
PYTHON
AI
GIT
PHP
GO
CEF3
JAVA
HTML
CSS
搜索
IT小白
这个屌丝很懒,什么也没留下!
关注作者
热门标签
jquery
HTML
CSS
PHP
ASP
PYTHON
GO
AI
C
C++
C#
PHOTOSHOP
UNITY
iOS
android
vue
xml
爬虫
SEO
LINUX
WINDOWS
JAVA
MFC
CEF3
CAD
NODEJS
GIT
Pyppeteer
article
热门文章
1
mysql 事务及锁_mysql事务锁
2
Ubuntu安装Ardupilot以及编译SITL_ubuntu ardupilot
3
昇思基础课程打卡(SPONGE课前学习)4.数据变换 Transforms
4
趣味算法------开灯问题
5
Vue3中安装和使用Vant_vant vue3
6
大语言模型应用指南:提示模板与多轮对话_大语言模型多轮对话
7
STM32/GD32——UART串口通信_gd32串口通信
8
【无线渗透】连接第一块无线网卡_8187l支持5g频段吗
9
大模型入门指南(非常详细)零基础入门到精通,收藏这一篇就够了_大模型教程
10
LangChain-Chatchat 实践
当前位置:
article
> 正文
说话人识别中的数据需求_四川话数据集
作者:IT小白 | 2024-08-02 21:56:25
赞
踩
四川话数据集
概述
机器学习领域名言“Garbage In, Garbage Out!”不论神经网络多么先进,如果输入是垃圾,那么输出也一定是垃圾
在说话人识别领域,所需的最小数据单元,包括:
一段只包含单一说话人语音的音频,被称为Utterance(话语)
该段音频的说话人标签,能够唯一地在整个数据集中标识该说话人
怎么样的数据不是Garbage呢?或者说,如何评价一个数据集的质量呢?有以下这些指标:
说话人的数量
每个说话人的话语个数
文本的多样性
口音和语调的多样性
录音设备和声学环境的多样性
数据的正确性
说话人的数量、每个说话人的话语个数
几乎可以肯定:运行时要识别的说话人,不会出现在数据集中。因此说话人的数量,对系统的泛化性能非常重要
用于学术研究的数据集通常包含数千个说话人,例如:VoxCeleb,而实际落地的系统至少需要数万个说话人
在训练和测试时,需要正样本和负样本
说话人的数量决定了负样本的数量,说话人的数量越多越好
每个说话人的话语个数决定了正样本的数量,通常每个人有10~100个话语即可
文本多样性
文本多样性指:
发音多样性
词汇多样性
话题多样性
对于文本相关的说话人识别,文本多样性是不重要的
而对于文本无关的说话人识别,如果运行时的文本,是数据集中未出现过的,那么系统性能会很差。比如:古诗文本的数据集,不能用于经济新闻的说话人识别
口音和语调的多样性
使用普通话数据集训练的系统,在遇到粤语、闽南语、四川话等语言时,识别效果会差
使用新闻播音数据集训练的系统,在遇到电竞、体育直播这种语速快、情绪波动大,行业黑话多的场景时,识别效果会差
录音设备和声学环境的多样性
不同的录音设备录制的音频,频谱分布和音频质量会有比较大的差别,数据集应尽可能覆盖不同的录音设备,包括:
手机麦克风
电脑麦克风
录音棚麦克风
不同的声学环境,会形成不同的噪声和混响,数据集应尽可能覆盖不同的声学环境,包括:
街头
商店、餐厅
车内、家中
歌剧院
数据的正确性
数据的正确性包括:
音频的正确性
音频文件是否破损
音频内容是语音还是纯噪声
音频是否只包含单一说话人
说话人标签的正确性
标签是否发生反转,即属于说话人A的话语被标注成了说话人B的话语
数据的正确性是难以达到100%的,越是大的数据集就越是会出现数据错误,著名的ImageNet ILSVRC 2012就存在至少十万个数据错误
音频错误可视为一种离群点噪声,标签错误可视为一种标签反转噪声,不同的损失函数对不同的噪声鲁棒性不一样,下图是
Deep Face Recognition: A Survey
中,对数据错误的讨论:
总而言之,数据错误越少越好,保证数据正确性很要必要,在错误的数据上做数据增强,只会创造更多Garbage
数据采集
不同于ImageNet、人脸等数据集,说话人识别的数据集是无法人工标注的,因为人类难以根据人的语音,辨认人的身份
要采集说话人识别的数据集,有两种途径:
在录音阶段就进行标注
利用视频数据里的人脸识别信息,对视频里的说话人进行标注
声明:
本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:
https://www.wpsshop.cn/w/IT小白/article/detail/920132
推荐阅读
article
19066
第
K小子
串
...
腾讯2021校园招聘技术类编程题输入一个字符
串
s,s 由小写英文字母组成,保证 s 长度小于等于 5000 并且大于等...
赞
踩
article
为什么
要
学习
数据结构
和
算法
?_
为什么
要
学
数据结构
...
1. 什么是
数据结构
和
算法
?
数据结构
,就是一组数据的存储结构。
算法
,就是操作数据的一组方法。
数据结构
是为
算法
服务的,
算法
...
赞
踩
article
java
分页
计算_
java
分页
算法...
关键字: j2ee 网页 struts
分页
算法/***
分页
算法*/package cn.eshore.user.ut...
赞
踩
article
Vue
系列
面试题
...
Vue
2中采用Object.defineProperty来实现数据响应式,Object.definePropery虽然可...
赞
踩
article
Kafka
Q - 好用的
Kafka
Linux
命令行
可视化
工具
_
kafka
可视化
工具
...
鉴于并没有在网上找到比较好的linux平台的
kafka
可视化
工具
,今天为大家介绍一下自己开发的在
Linux
平台上使用...
赞
踩
article
C++:
STL
算法
_
c++
stl
算法
...
一、头文件
算法
主要是由头文件
组成。其中
[详细]
-->
赞
踩
article
AI
绘画
之
SD
_
sd
跑
图
没办法调用
gpu
...
AI
GC技术的未来发展前景广阔,随着人工智能技术的不断发展,
AI
GC技术也将不断提高。未来,
AI
GC技术将在游戏和计算领...
赞
踩
article
SpringBoot
实现
数据
加密
脱敏(注解 + 反射 + AOP)_
springboot
对敏感数...
SpringBoot
实现
数据
加密
脱敏(注解 + 反射 + AOP)_
springboot
对
敏感
数据
加密
解密sprin...
赞
踩
article
不允许
使用
你正在
尝试
的
登录
方式
请联系你
的
网络管理员
_
uipath
机器人设置
交互式
登录
时解疑(一).....
前期在《关于
uipath
软件安装激活手顺书》一文中讲到
uipath
安装与激活
的
方式
方法,当然在激活过程中又有很多小伙伴可...
赞
踩
article
Python
生成
个人
CSDN
历史博客文章
列表
及目录_使用
python
爬取
csdn
历史博客文章
列表
,并...
# 使用
Python
构建
CSDN
历史博客文章
列表
,并
生成
目录_使用
python
爬取
csdn
历史博客文章
列表
,并
生成
目录使...
赞
踩
article
rabbitmq
/.
erlang
.
cookie
must
be
accessible
by owne...
文章描述了在使用Docker运行RabbitMQ时遇到的启动失败问题,原因在于Cookiefile权限问题。作者提供了修...
赞
踩
article
2024年华为OD机试真题-
分配
土地
-(C++/
Java
/
python
)-OD统一考试(C卷D卷)_...
从前
有个
村庄
,
村民
们喜欢在
各种
田地
上
插
上
小
旗子
,
旗子
上
标识
了
各种
不同
的
数字
。某天集体
村民
决定将覆盖相同
数字
的
最小矩阵形
的
...
赞
踩
article
like
模糊匹配
查询
慢
解决之道
——
MySQL
全文索引
_
mysql
查询
慢
like
...
针对
MySQL
中LIKE模糊
查询
效率低的问题,本文介绍了
全文索引
的概念、创建及使用,强调了InnoDB引擎的
全文索引
在处...
赞
踩
article
Day6
代码
随想录
打卡|
链表
篇
---
移除
链表
元素
...
删除
链表
节点的方式是将该节点的前一个节点的指针直接指向该节点的下个节点,并del该节点。可以有两张方式,第一种是判断he...
赞
踩
article
用
spark
进行
数据
查询
常
用
语法总结_
spark
sql
基本
查询
...
用
spark
进行
数据
查询
常
用
语法总结_
spark
sql
基本
查询
spark
sql
基本
查询
...
赞
踩
article
13
.
Java
StringBuffer
和
StringBuilder
类
教程(一看就会)...
Java
提供了两个
类
:
StringBuffer
和
StringBuilder
,它们都是字符串的可变版本,可以在多个线...
赞
踩
article
Spring
三级
缓存
解决循环
依赖
源码
解析_
spring
注解
三级
缓存
源码
分析...
什么是循环
依赖
当我们代码中出现,形如TestA类中
依赖
注入TestB类,TestB类
依赖
注入A类时,在IOC过程中cre...
赞
踩
article
PyTorch
深度学习实战(22)——
从零开始
实现
YOLO
目标
检测
_pytorch2.2.1跑yol...
YOLO
(You Only Look Once) 是一种实时
目标
检测
算法,它以其高效性和准确性而闻名。相比于传统的
目标
...
赞
踩
article
自然语言
处理
中
MLP
和
CNN
的应用...
自然语言
在
MLP
和
CNN
上的应用
自然语言
处理
中
MLP
和
CNN
的应用 ...
赞
踩
article
git
commit
代码
提交
规范_
git
commit
提交
规范...
每个人
git
的
提交
记录都有自己的风格和习惯,特别是多人协作开发的项目,如果没有一套完整的规范,则每个人的代码
提交
描述...
赞
踩
相关标签
算法
c++
数据结构
排序算法
开发语言
java分页计算
vue.js
前端
javascript
kafka
分布式
AI作画
stable diffusion
人工智能
AIGC
AI绘画
spring boot
状态模式
后端
不允许使用你正在尝试的登录方式请联系你的网络管理员
python
opencv
计算机视觉
网络爬虫