赞
踩
本文主要详细介绍了语音中最常见的数据集(包含各个语种),及其格式等~
目录
1.8.Hi-Fi Multi-Speaker English TTS Dataset
3.1.IEMOCAP (The Interactive Emotional Dyadic Motion Capture (IEMOCAP) Database)
网址 : The LJ Speech Dataset (keithito.com)
数据集描述:
数据集大小:2.6GB
这是一个公共领域的语音数据集,由 13,100 个简短的音频剪辑组成 一位演讲者阅读 7 本非小说类书籍的段落。为每个剪辑提供转录。 剪辑的长度从 1 到 10 秒不等,总长度约为 24小时。
数据集描述:
元数据在成绩单.csv中提供。此文件由一条记录组成 每行,由竖线字符 (0x7c) 分隔。这些字段是:
ID:这是对应.wav文件的名称
转录:读者说出的单词 (UTF-8)
规范化转录:使用数字、序数和货币单位进行转录 扩展为完整单词 (UTF-8)。
每个音频文件都是一个单通道 16 位 PCM WAV,采样率为 22050 Hz。
-
- 总剪辑数 13,100
- 总字数 225,715
- 总字符数 1,308,678
- 总持续时间 23:55:17
- 平均剪辑持续时间 6.57 秒
- 最小剪辑持续时间 1.11 秒
- 最大剪辑持续时间 10.10 秒
- 每个剪辑的平均字数 17.23
- 不同的单词 13,821
命令快速下载:wget https://data.keithito.com/data/speech/LJSpeech-1.1.tar.bz2
下载后文件压缩包 : LJSpeech-1.1.tar.bz2
linux解压命令
-
- tar -jxvf LJSpeech-1.1.tar.bz2
解压缩后,生成LJSpeech-1.1文件夹:.wav及csv文件
wavs格式如下
metadata格式如下(text文件)
网址 :Shinnosuke Takamichi (高道 慎之介) - JSUT (google.com)
数据集描述:
数据集大小:2.7GB
该语料库由日语文本(转录)和阅读式音频组成。音频数据以48kHz采样并记录在消声室。录制了一位以日语为母语的女性的声音。此语料库包含 10 小时的语音,由以下数据组成:
基本5000 ...涵盖所有日常使用字符(jouyou汉字)。
ut释义512 ...将句子的一部分替换为其释义。
拟声词300 ...包括日语的拟声词(拟声词)。
后缀26 ...日语的反后缀
借词128 ...日语的外来词(例如,ググる [“谷歌”作为动词])
声优100 ...对声优语料库的副演讲(专业女性演讲者的免费语料库)
旅行1000 ...旅行域语料库
先例130 ...先例句
重复500 ...重复口语(100句*5次)
网址 :RUSLAN: Russian Spoken Language Corpus For Speech Synthesis
数据集描述:
RUSLAN 是用于文本到语音转换任务的俄语口语语料库。RUSLAN 包含 22,200 个带有文本注释的音频样本——一个人超过 31 小时的高质量演讲——就单个发言者的语音持续时间而言,是最大的带注释的俄语语料库之一。
数据集描述:
RyanSpeech是用于研究自动文本到语音(TTS)系统的新语音语料库。公开可用的TTS语料库通常嘈杂,由多个说话者录制,或者没有高质量的男性语音数据。为了满足语音识别领域对高质量、公开可用的男性语音语料库的需求,我们设计并创建了 RyanSpeech。我们从现实世界的对话环境中衍生出RyanSpeech的文本材料,这些材料包含超过10个小时的专业男性配音演员的演讲,录制频率为44.1 kHz。这种语料库创建的设计和管道使RyanSpeech成为在实际应用中开发TTS系统的理想选择。为了为未来的研究、协议和基准提供基线,我们在 RyanSpeech 上训练了 4 个最先进的语音模型和一个声码器。结果显示,在我们的最佳模型中,平均意见得分(MOS)为3.36。我们已公开提供经过训练的模型以供下载。
网址 :https://github.com/facebookresearch/vocoder-benchmark
数据集描述:
VocBench是一个为最先进的神经声码器的性能提供基准的框架。VocBench采用系统的研究方法,在一个共享的环境中评估不同的神经声码器,使它们之间能够进行公平的比较。
网址 :http://en.arabicspeechcorpus.com/
数据集描述:
数据集大小:1.5GB
该语音语料库是南安普敦大学Nawar Halabi博士工作的一部分。语料库是使用专业录音室用南黎凡特阿拉伯语(大马士革口音)录制的。使用此语料库合成语音作为输出,产生了高质量、自然的声音。
网址 :Silent Speech EMG | Zenodo
数据集描述:
无声和发声语音期间的面部肌电图记录。
这些数据在EMNLP 2020(https://arxiv.org/abs/2010.02960)的出版物“无声语音的数字发声”中进行了描述。
每个数据样本有 5 个数据文件:{i}_emg.npy - 一个保存的大小为 (T, 8) 的 numpy 数组,带有原始 EMG 信号;{i}_audio.flac - 原始录音;{i}_audio_clean.flac - 降低背景噪音的音频;{i}_info.json - 包含额外信息的 JSON,例如读取的文本提示;{i}_button.npy - 包含设备按钮状态的 numpy 数组,通常未使用。请注意,某些样本并不代表实际数据点,而是用作参考肌电图或音频信号。这些示例在相关信息文件中标有“sentence_index:-1”。
https://arxiv.org/pdf/2010.02960.pdf
网址 :Hi-Fi Multi-Speaker English TTS Dataset
数据集描述:
该数据集是基于LibriVox的公共有声读物和古腾堡计划的文本。
Hi-Fi TTS数据集包含来自10个发言人的约291.6小时的语音,每个发言人至少有17小时的44.1kHz采样。
"Hi-Fi Multi-Speaker English TTS Dataset" Bakhturina, E., Lavrukhin, V., Ginsburg, B. and Zhang, Y., 2021: arxiv.org/abs/2104.01497.
网址 :Korean Single Speaker Speech Dataset | Kaggle
数据集描述:
Korean Single speaker Speech Dataset(KSS),韩国女性语音合成数据集
论文:
Yamagishi, Junichi and Veaux, Christophe and MacDonald, Kirsten. in CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit
下载地址:CSTR VCTK Corpus: English Multi-speaker Corpus for CSTR Voice Cloning Toolkit (version 0.92)
文件格式:
数据集描述:
VCTK 数据集包括 110 名具有不同口音的英语母语人士所说的语音数据。每个演讲者朗读大约400个句子,其中大部分是从报纸加上彩虹通道和识别说话者口音的引出段落中挑选出来的。彩虹段落和引出段落对于所有演讲者都是相同的。报纸文本摘自《先驱报》(格拉斯哥),经《先驱报》和时代集团许可。每个说话者阅读一组不同的报纸句子,每组都是使用贪婪算法选择的。
论文:LibriTTS: A Corpus Derived from LibriSpeech for Text-to-Speech
论文地址:https://arxiv.org/pdf/1904.02882.pdf
数据下载:openslr.org
LibriTTS 是一个多说话者的英语语料库,由 Heiga Zen 在 Google Speech 和 Google Brain 团队成员的协助下编写,以 585kHz 采样率阅读约 24 小时的英语语音。 LibriTTS 语料库专为 TTS 研究而设计。它源自 LibriSpeech 语料库的原始材料(来自 LibriVox 的 mp3 音频文件和来自 Project Gutenberg 的文本文件)。 下面列出了与 LibriSpeech 语料库的主要区别:
多任务数据集表示数据集可在多任务下使用,例如语音合成,语音识别,情绪声音克隆,语音情绪识别等等
官网:Emotional Voice Conversion: Theory, Databases and ESD (hltsingapore.github.io)
[2]数据包含了中文和英文,共20个演讲者,每个演讲者都包含5个情绪,每个情绪包含350个语音文件,
通过google 云端硬盘下载(下载地址)
文本文件,包含语音文件名称,语音文本,情绪标签。
IEMOCAP(交互式情感二元运动捕捉 (IEMOCAP) 数据库)
多模态情绪识别IEMOCAP IEMOCAP 数据集包含 151 个录制对话的视频,每个会话有 2 个演讲者,整个数据集中共有 302 个视频。每个片段都标注了 9 种情绪(愤怒、兴奋、恐惧、悲伤、惊讶、沮丧、快乐、失望和中性)以及效价、唤醒和支配。数据集记录了 5 个会话,有 5 对说话者。
[1]C. Veaux, J. Yamagishi and S. King, "The voice bank corpus: Design, collection and data analysis of a large regional accent speech database," https://doi.org/10.1109/ICSDA.2013.6709856.
[2] Kun Zhou, Berrak Sisman, Rui Liu, and Haizhou Li, “Seen and unseen emotional style transfer for voice conversion with a new emotional speech dataset,” in ICASSP. IEEE, 2021, pp. 920–924.
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。