当前位置:   article > 正文

Python:TTS语音合成技术,市场各大平台对比以及实现_tsn语音

tsn语音

前景提要:在线的实时合成TTS技术,巴拉巴拉... 此处省略3千字
市场的TTS平台:讯飞科技百度智能语音开放平台阿里云腾讯云思必驰捷通华声(灵云

TTS的合成简单来说就三大步:
1️⃣创建应用
2️⃣发起请求
3️⃣解析音频数据,合成音频文件

咱们废话不说一个一个来:
一、讯飞,音频届的老大哥
支持多种语言开发,选择适合自己的,我这里选的是WebAPI:

01、创建应用

说明:
  1和3: 是在代码中具体使用到的 鉴权码
  2:表示试用期间的每天使用次数
 4:请求IP要添加白名单,不添加白名单会请求失败
 5:可以选择不同的发音人:(分初级和高级,高级的另收费)

code:

  1. def tts_xunfei(text):
  2. # API请求地址、API KEY、APP ID等参数,提前填好备用
  3. api_url = "http://api.xfyun.cn/v1/service/v1/tts"
  4. API_KEY = "API_KEY"
  5. APP_ID = "APP_ID"
  6. OUTPUT_FILE = "讯飞.wav" # 输出音频的保存路径,请根据自己的情况替换
  7. TEXT = text
  8. # 构造输出音频配置参数custom_skill.py3
  9. Param = {"auf": "audio/L16;rate=16000", # 音频采样率
  10. "aue": "raw", # 音频编码,raw(生成wav)或lame(生成mp3)
  11. "voice_name": "x_xiaoyuan", "speed": "50", # 语速[0,100]
  12. "volume": "77", # 音量[0,100]
  13. "pitch": "50", # 音高[0,100]
  14. "engine_type": "aisound" # 引擎类型。aisound(普通效果),intp65(中文),intp65_en(英文)
  15. }
  16. # 配置参数编码为base64字符串,过程:字典→明文字符串→utf8编码→base64(bytes)→base64字符串
  17. Param_str = json.dumps(Param) # 得到明文字符串
  18. Param_utf8 = Param_str.encode('utf8') # 得到utf8编码(bytes类型)
  19. Param_b64 = base64.b64encode(Param_utf8) # 得到base64编码(bytes类型)
  20. Param_b64str = Param_b64.decode('utf8') # 得到base64字符串
  21. # 构造HTTP请求的头部
  22. time_now = str(int(time.time()))
  23. checksum = (API_KEY + time_now + Param_b64str).encode('utf8')
  24. checksum_md5 = hashlib.md5(checksum).hexdigest()
  25. header = {"X-Appid": APP_ID, "X-CurTime": time_now, "X-Param": Param_b64str, "X-CheckSum": checksum_md5}
  26. # 构造HTTP请求Body
  27. body = {"text": TEXT}
  28. body_urlencode = urllib.parse.urlencode(body)
  29. body_utf8 = body_urlencode.encode('utf8')
  30. # 发送HTTP POST请求
  31. req = urllib.request.Request(api_url, data=body_utf8, headers=header)
  32. response = urllib.request.urlopen(req)
  33. # 读取结果
  34. response_head = response.headers['Content-Type']
  35. if (response_head == "audio/mpeg"):
  36. data = response.read() # a 'bytes' object
  37. save_wav(data, OUTPUT_FILE)
  38. else:
  39. print(response.read().decode('utf8'))

注意:将上面的APP_ID和API_KEY更换为自己的即可,另外记得添加IP白名单

二、阿里平台
用户鉴权有有效期,到期了要重新获取token

  1. def tts_ali(text):
  2. # 获取存储的access_token, token_expireTime 两个同时更新
  3. token_expireTime = 1551513046
  4. access_token = "9fcdcd2a190f49cb926dc5c2e24043c8"
  5. # 当前的时间戳 和 token有效期对比,如果过期则重新生成
  6. local_time = int(time.time())
  7. if local_time >= token_expireTime:
  8. # 重新生成并存储
  9. access_token, token_expireTime = get_token()
  10. headers = {
  11. "Content-Type": "application/json;charset=UTF-8",
  12. "X-NLS-Token":access_token,
  13. }
  14. data_info = {
  15. "appkey":"5dz4RRvAJufMAB6g",
  16. "text":text,
  17. "token":access_token,
  18. "format":"wav",
  19. "voice":"yina",
  20. "sample_rate":"16000", # 音频采样率,默认是16000
  21. "volume":"50", # 音量,范围是0~100,默认50
  22. "speech_rate":"45", # 语速,范围是-500~500,默认是0
  23. "pitch_rate":"0", # 语调,范围是-500~500,默认是0
  24. # 试听发音人:https://ai.aliyun.com/nls/tts?spm=5176.8142029.388261.47.f8ed6d3e0NhBch
  25. # 发音人参数:https://help.aliyun.com/document_detail/84435.html?spm=a2c4g.11186623.6.581.69a853d5E4c3vM
  26. # 推荐:小梦 思悦 小美 伊娜
  27. }
  28. data = json.dumps(data_info)
  29. ret = requests.post(ALI_URL, headers=headers, data=data, timeout=5)
  30. save_wav(ret.content, "ali2.wav")

提醒:
token的获取我代码里有完整的
另外开发测试期间,开发文档会提供简易的不过期token,方便测试

三、百度
调用方式简单,开发文档里有说明

  1. # 百度
  2. def tts_baidu(text):
  3. baidu_url = "http://tsn.baidu.com/text2audio?lan=zh&ctp=1&cuid=abcdxxx&tok=24.ed4dfdxxxxxff0af259fc.2592000.1553756573.282335-15631432&tex={}&vol=9&per=0&spd=5&pit=5&aue=6".format(text)
  4. ret = requests.get(baidu_url, timeout=5)
  5. save_wav(ret.content, "siyue.wav")

四、腾讯 
正在开发测试阶段,直接舍弃了

五、标贝

  1. # 标贝
  2. def tts_biaobei(text):
  3. """获取tts语音"""
  4. tts_url = "http://1.203.80.138:8001/tts?user_id=xxx&domain=1&volume=0&language=zh&speed=5&audiotype=5&text=" + text
  5. f = requests.get(tts_url)
  6. voice = f.content
  7. return voice


六、思必驰

  1. # 思必驰
  2. def tts_dui(text):
  3. data_dict = {
  4. "context": {"productId": "productId"},
  5. "request": {"requestId": "tryRequestId",
  6. "audio": {"audioType": "WAV", "sampleRate": 16000, "channel": 1, "sampleBytes": 2},
  7. "tts": {
  8. "text": text,
  9. "textType": "text",
  10. "voiceId": "lili1f_shangwu"}}}
  11. data = json.dumps(data_dict)
  12. headers = {
  13. 'content-type': 'application/json',
  14. 'User-Agent': 'Mozilla/5.0 '}
  15. r = requests.post(DUI_URL, data=data, headers=headers, timeout=5)
  16. print(r)
  17. # 写入文件生成音频
  18. save_wav(r.content, "DUI.wav")

  七、捷通华声(灵云)
   

  1. # 灵云
  2. def tts_lingyun(text):
  3. linghyun_URL = "http://api.hcicloud.com:8880/tts/synthtext"
  4. request_data = "2014-6-18 10:10:11"
  5. data = request_data + "应用参数"
  6. md5 = hashlib.md5()
  7. md5.update(data.encode('utf-8')) # 注意转码
  8. res = md5.hexdigest()
  9. headers = {"x-app-key": "c95d54cf", "x-sdk-version": "3.9", "x-request-date": request_data,
  10. "x-task-config": "capkey=tts.cloud.xiaokun,audioformat=mp3,speed=2,volume=9.99", "x-session-key": res,
  11. "x-udid": "101:1234567890"}
  12. r = requests.post(linghyun_URL, headers=headers,
  13. data=text.encode('utf-8'),
  14. timeout=5)
  15. # 获取音频数据
  16. ret = r.content
  17. ret = ret[ret.find(b'</ResponseInfo>') + 15:]
  18. # 写入文件生成音频
  19. save_wav(bytes(ret), "aasdasd.mp3")

没有python示例代码,返回参数比较变态,解析出音频耗了我大量时间(因为我技术不佳)

使用过程中:百度无人回复,没给报价,思必驰没找到任何公司人员
各平台均有使用,每天限次数,可以开发试听一下,
效果比较个人感觉:
标贝 > 讯飞 > 阿里 > 百度 > 思必驰 > 灵云

音频效果,见公众号文章:回复 TTS 即可

价格比较:
讯飞:

百度:暂时免费  超高量并发另行收费

标贝:16万/年
灵云:2万次/100

Git代码: 公众号后台回复 python_tts 或 tts

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/笔触狂放9/article/detail/88125
推荐阅读
相关标签
  

闽ICP备14008679号