从前慢现在也慢

这个屌丝很懒，什么也没留下！

热门标签

利用科大讯飞语音合成模块SDK实现ROS语音交互_在ros中使用讯飞sdk完成语音交互

作者：从前慢现在也慢 | 2024-06-25 16:46:58

踩

在ros中使用讯飞sdk完成语音交互

利用科大讯飞语音合成模块SDK实现ROS语音交互

本文内容与CSDN博主「AI Chen」的原创文章相同，可以直接参考原文：https://blog.csdn.net/qq_39400324/article/details/125351722快速链接
本文目的在于记录学习过程，作为笔记。
本文标记为转载。

参考及引用

CSDN博主「AI Chen」的原创文章
本文大部分内容根据CSDN博主「AI Chen」的原创文章（遵循CC 4.0 BY-SA版权协议）所记录的笔记。
原文链接：https://blog.csdn.net/qq_39400324/article/details/125351722快速链接

————————————————————————————————————————————

一、SDK下载

讯飞开放平台：https://www.xfyun.cn/快速链接
控制台——创建新应用——下载Linux MSC

在这里插入图片描述

在这里插入图片描述
下载后解压，移动到Ubuntu内，我命名为Linux_aisound

二、语音与文字的相互转换

1.语音转文字

Ⅰ对下载的SDK进行编译

到home/安装Ubuntu的用户名/所下载的SDK包/samples/iat_online_record_sample路径下，使用如下命令进行编译

source 64bit_make.sh
1

在这里插入图片描述

Ⅱ若出现编译报错

若出现编译报错，则使用该命令安装后，再编译一次，具体可参考此处

sudo apt-get install libasound2-dev
1

Ⅲ运行语音转文字历程

在第Ⅰ步编译完成后，会在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下产生iat_online_record_sample，在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下打开终端，运行如下指令：

./iat_online_record_sample
1

在这里插入图片描述

出现如下报错：

./iat_online_record_sample: error while loading shared libraries: libmsc.so: cannot open shared object file: No such file or directory
1

解决办法：
把home/安装Ubuntu的用户名/所下载的SDK包/bin/libs/x64/路径下的libmsc.so文件复制到usr/lib/ 在这里插入图片描述
可以参考原作者提供的办法

sudo cp libs/x64/libmsc.so /usr/lib/
1

sudo ldconfig
1

我i这里尝试后发现会报错，于是更改了路径后（vm123是我的用户名）就能复制成功，指令如下：

sudo cp /home/vm123/Linux_aisound/libs/x64/libmsc.so /usr/lib
1

复制完成后，重新运行：

./iat_online_record_sample
1

并进行配置：
①是否上传使用者的字符库，选择 No

②语音从哪里来，选择From microphone

最后，对着麦克风讲话，将识别并转换为文字。

2.文字转语音

Ⅰ对下载的SDK进行编译

到home/安装Ubuntu的用户名/所下载的SDK包/samples/tts_online_sample路径下，使用如下命令进行编译

source 64bit_make.sh
1

在这里插入图片描述

Ⅱ运行文字转语音历程

在第Ⅰ步编译完成后，会在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下产生tts_online_sample，在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下打开终端，运行如下指令：

./tts_online_sample
1

运行结束后关闭终端，会在home/安装Ubuntu的用户名/所下载的SDK包/bin/路径下生成刚才测试产生的语音。

Ⅲ在上述基础上实现自动播放

在home/安装Ubuntu的用户名/所下载的SDK包/samples/tts_online_sample/路径下修改tts_online_sample.c文件。
在这里插入图片描述
在第174行printf("合成完毕\n");后面，添加如下代码，就可以在合成之后自动播放合成的文件。

popen("play tts_sample.wav","r");
1

添加完成后需按照上述重新编译。

三、ROS的语音与文字转换

1.语音输入转为文字

在这里插入图片描述

Ⅰ创建工作空间

创建工作空间，命名为catkin_ws_voice_control，在工作空间创建一个功能包，命名为robot_voice，创建功能包的依赖为roscpp std_msgs。
将所下载的语音SDK包/include/路径下的7个.h文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/robot_voice/include/robot_voice/路径下。
在这里插入图片描述
将所下载的语音SDK包/samples/iat_online_record_sample/路径下的3个.h文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/robot_voice/include/robot_voice/路径下。

将所下载的语音SDK包/samples/iat_online_record_sample/路径下的3个.c文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/src/robot_voice/src/路径下。并把iat_online_record_sample.c改为iat_publish.cpp（注意后缀更改）。
在这里插入图片描述

Ⅱ修改代码文件

首先，修改iat_publish.cpp：
①头文件
将

#include "qisr.h"
#include "msp_cmn.h"
#include "msp_errors.h"
#include "speech_recognizer.h"
1
2
3
4

改为

#include "robot_voice/qisr.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"
#include "robot_voice/speech_recognizer.h"
1
2
3
4

如图所示：
在这里插入图片描述
②

#include "ros/ros.h"
#include "std_msgs/String.h"

int wakeupFlag   = 0 ;
int resultFlag   = 0 ;
1
2
3
4
5

添加后如图：
在这里插入图片描述

③
在这里插入图片描述

resultFlag=1;
1

在这里插入图片描述

④
在这里插入图片描述

// 初始化ROS
    ros::init(argc, argv, "voiceRecognition");
    ros::NodeHandle n;
    ros::Rate loop_rate(10);

    // 声明Publisher和Subscriber
    // 订阅唤醒语音识别的信号
    ros::Subscriber wakeUpSub = n.subscribe("voiceWakeup", 1000, WakeUp);   
    // 订阅唤醒语音识别的信号    
    ros::Publisher voiceWordsPub = n.advertise<std_msgs::String>("voiceWords", 1000);  

    ROS_INFO("Sleeping...");
    int count=0;
1
2
3
4
5
6
7
8
9
10
11
12
13

⑤
在这里插入图片描述

while(ros::ok())
{
	// 语音识别唤醒     
    if(wakeupFlag)
    {
		printf("Demo recognizing the speech from microphone\n");
		printf("Speak in 8 seconds\n");

		demo_mic(session_begin_params);

		printf("8 sec passed\n");
		wakeupFlag=0;
	}

	// 语音识别完成
	if(resultFlag){
		resultFlag=0;
		std_msgs::String msg;
		msg.data = g_result;
		voiceWordsPub.publish(msg);
	}
	ros::spinOnce();
    loop_rate.sleep();
    count++;
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25

⑥
在这里插入图片描述

void WakeUp(const std_msgs::String::ConstPtr& msg)
{
    printf("waking up\r\n");
    usleep(700*1000);
    wakeupFlag=1;
}
1
2
3
4
5
6

⑦若需要修改15秒的语音转文字为其他时间的语音转文字，则
在这里插入图片描述

printf("Demo recognizing the speech from microphone\n");
printf("Speak in 8 seconds\n");

printf("Speak in 8 seconds\n");

printf("8 sec passed\n");
1
2
3
4
5
6

在这里插入图片描述

/* demo 8 seconds recording */
while(i++ < 8)
	sleep(1);
1
2
3

其次，修改linuxrec.c和speech_recognizer.c：
在这里插入图片描述

#include "robot_voice/formats.h"
#include "robot_voice/linuxrec.h"
1
2

和
在这里插入图片描述

#include "robot_voice/speech_recognizer.h"
#include "robot_voice/qisr.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"
#include "robot_voice/linuxrec.h"
1
2
3
4
5

Ⅲ配置编译文件

在这里插入图片描述
添加可执行文件：

add_executable(iat_publish src/iat_publish.cpp src/speech_recognizer.c src/linuxrec.c)
1

添加编译连接库：

target_link_libraries(iat_publish
  ${catkin_LIBRARIES}
  libmsc.so -ldl -lpthread -lm -lrt -lasound
)
1
2
3
4

Ⅳ运行代码程序

编译功能包
（环境变量）
（运行roscore）
运行代码程序

rosrun robot_voice iat_publish
1

发布话题

 rostopic pub /voiceWakeup std_msgs/String "data: 'input any words'" 
1

2.文字输入转为语音

在这里插入图片描述

Ⅰ创建工作空间

将所下载的语音SDK包/samples/tts_online_sample/路径下的tts_online_sample.c文件复制到home/安装Ubuntu的用户名/catkin_ws_voice_control/src/robot_voice/src/路径下。并把tts_online_sample.c改为tts_subscribe.cpp（注意后缀更改）。

Ⅱ修改代码文件

修改tts_subscribe.cpp
①头文件
将

#include "qtts.h"
#include "msp_cmn.h"
#include "msp_errors.h"
1
2
3

改为

#include "robot_voice/qtts.h"
#include "robot_voice/msp_cmn.h"
#include "robot_voice/msp_errors.h"
1
2
3

如图所示：
在这里插入图片描述

②增加ROS头文件

#include "ros/ros.h"
#include "std_msgs/String.h"
1
2

③修改代码内容
将如图所示内容删除（main函数内）
在这里插入图片描述

④在主函数内插入ros句柄

ros::init(argc,argv,"TextToSpeech");
ros::NodeHandle n;
ros::Subscriber sub =n.subscribe("voiceWords", 1000, voiceWordsCallback);
ros::spin();
1
2
3
4

在这里插入图片描述

⑤在主函数前边插入文字转语音的回调函数

void voiceWordsCallback(const std_msgs::String::ConstPtr& msg)
{
char cmd[2000];
const char* text;
int         ret                  = MSP_SUCCESS;
const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";
const char* filename             = "tts_sample.wav"; //合成的语音文件名称

std::cout<<"I heard :"<<msg->data.c_str()<<std::endl;
text = msg->data.c_str(); 

/* 文本合成 */
printf("开始合成 ...\n");
ret = text_to_speech(text, filename, session_begin_params);
if (MSP_SUCCESS != ret)
{
    printf("text_to_speech failed, error code: %d.\n", ret);
}
printf("合成完毕\n");
popen("play tts_sample.wav","r");
sleep(1);
} 
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22

在这里插入图片描述

⑥注释掉一部分
在这里插入图片描述

⑦修复一个错误
在这里插入图片描述

void toExit()
{
    printf("按任意键退出 ...\n");
    getchar();
    MSPLogout(); //退出登录
}
1
2
3
4
5
6

Ⅲ配置编译文件

将以下添加至CMakeLists.txt文件

add_executable(tts_subscribe src/tts_subscribe.cpp)
target_link_libraries(tts_subscribe
  ${catkin_LIBRARIES}
  libmsc.so -ldl -pthread 
)
1
2
3
4
5

Ⅳ运行代码程序

编译功能包
（环境变量）
（运行roscore）
运行代码程序

rosrun robot_voice tts_subscribe
1

随后打开另一终端运行

rostopic pub /voiceWords std_msgs/String "data: ' 这是一个测试案例'"
1

若报错，可自行寻找原因，或使用我运行成功的代码https://blog.csdn.net/m0_64730542/article/details/128792625

3.使用launch文件将语音与文字实现相互转换

Ⅰ介绍

在这里插入图片描述

Ⅱ建立launch文件

①在home/安装Ubuntu的用户名/catkin_ws_voice_control/src/robot_voice/路径下创建名为launch的文件。
②新建文本，命名为repeat_voice.launch
内容为

<launch>

	<node name="iat_publish" pkg="robot_voice" type="iat_publish" output="screen"/>
	<node name="tts_subscribe" pkg="robot_voice" type="tts_subscribe" output="screen"/>

</launch>
1
2
3
4
5
6

roslaunch robot_voice repeat_voice.launch
1

Ⅲ运行代码程序

四、实现语音交互

1.介绍

在这里插入图片描述

2.修改cpp文件

在这里插入图片描述
①添加to_string( )函数

std::string to_string(int val) 
{
    char buf[20];
    sprintf(buf, "%d", val);
    return std::string(buf);
}
1
2
3
4
5
6

②修改voiceWordsCallback( )函数

void voiceWordsCallback(const std_msgs::String::ConstPtr& msg)
{
    char cmd[2000];
    const char* text;
    int         ret                  = MSP_SUCCESS;
    const char* session_begin_params = "voice_name = xiaoyan, text_encoding = utf8, sample_rate = 16000, speed = 50, volume = 50, pitch = 50, rdn = 2";
    const char* filename             = "tts_sample.wav"; //合成的语音文件名称

    std::cout<<"I heard :"<<msg->data.c_str()<<std::endl;

    std::string dataString = msg->data;
    if(dataString.find("你是谁") != std::string::npos 
    || dataString.find("名字") != std::string::npos)
    {
        char nameString[100] = "我是你的语音小助手，你可以叫我小R";
        text = nameString;
        std::cout<<text<<std::endl;
    }
    else if(dataString.find("你几岁了") != std::string::npos 
         || dataString.find("年龄") != std::string::npos)
    {
        char eageString[100] = "我已经四岁了，不再是两三岁的小孩子了";
        text = eageString;
        std::cout<<text<<std::endl;
    }
    else if(dataString.find("你可以做什么") != std::string::npos 
         || dataString.find("干什么") != std::string::npos)
    {
        char helpString[100] = "你可以问我现在时间";
        text = helpString;
        std::cout<<text<<std::endl;
    }
    else if(dataString.find("时间") != std::string::npos)
    {
        //获取当前时间
        struct tm *ptm; 
        long ts; 

        ts = time(NULL); 
        ptm = localtime(&ts); 
        std::string string = "现在时间" + to_string(ptm-> tm_hour) + "点" + to_string(ptm-> tm_min) + "分";

        char timeString[40] = {0};
        string.copy(timeString, sizeof(string), 0);
        text = timeString;
        std::cout<<text<<std::endl;
    }
    else
    {
        text = msg->data.c_str();
    }


    /* 文本合成 */
    printf("开始合成 ...\n");
    ret = text_to_speech(text, filename, session_begin_params);
    if (MSP_SUCCESS != ret)
    {
        printf("text_to_speech failed, error code: %d.\n", ret);
    }
    printf("合成完毕\n");
 
    popen("play tts_sample.wav","r");
    sleep(1);
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65

3.配置编译文件

在CMakeLists.txt添加

add_executable(voice_assistant src/voice_assistant.cpp)
target_link_libraries(
   voice_assistant
   ${catkin_LIBRARIES} 
   libmsc.so -ldl -pthread
)
1
2
3
4
5
6

4.创建launch文件

创建名为voice_assistant.launch的文件，内容为

<launch>
	<node name="iat_publish" pkg="robot_voice" type="iat_publish" output="screen"/>
	<node name="voice_assistant" pkg="robot_voice" type="voice_assistant" output="screen"/>
</launch>
1
2
3
4

5.运行代码程序

运行

roslaunch robot_voice voice_assistant.launch
1

然后发布

rostopic pub /voiceWakeup std_msgs/String "data: 'any words'" 
1

即可进行
在这里插入图片描述

本文内容由网友自发贡献，转载请注明出处：【wpsshop博客】

利用科大讯飞语音合成模块SDK实现ROS语音交互_在ros中使用讯飞sdk完成语音交互

利用科大讯飞语音合成模块SDK实现ROS语音交互

目录

参考及引用

一、SDK下载

二、语音与文字的相互转换

1.语音转文字

Ⅰ对下载的SDK进行编译

Ⅱ若出现编译报错

Ⅲ运行语音转文字历程

2.文字转语音

Ⅰ对下载的SDK进行编译

Ⅱ运行文字转语音历程

Ⅲ在上述基础上实现自动播放

三、ROS的语音与文字转换

1.语音输入转为文字

Ⅰ创建工作空间

Ⅱ修改代码文件

Ⅲ配置编译文件

Ⅳ运行代码程序

2.文字输入转为语音

Ⅰ创建工作空间

Ⅱ修改代码文件

Ⅲ配置编译文件

Ⅳ运行代码程序

3.使用launch文件将语音与文字实现相互转换

Ⅰ介绍

Ⅱ建立launch文件

Ⅲ运行代码程序

四、实现语音交互

1.介绍

2.修改cpp文件

3.配置编译文件

4.创建launch文件

5.运行代码程序