当前位置:   article > 正文

通信原理课设(gec6818) 007:语音识别_gec6818语音识别

gec6818语音识别

目录

1、去科大讯飞官网下载对应的sdk

2、科大讯飞文件夹的意思

3、配置ARM的录音环境

4、编程实现语音识别


我们的需求是将一个语音文件从客户端传到服务器,因此我们最好是选用tcp
    
现在市面上面常用的语音识别解决方案为:科大讯飞c和百度c++

离线语音识别和在线语音识别有一定区别,以识别“你好”为例:
在线:语音识别可以直接返回“你好”这个字符串    
离线:只能做命令词 --- 根据我的需求写好代号
           如:你好 --- 1001
           最终我们可以拿到这个1001这个id

语音解决方案没有arm的环境,因此我们需要用开发板去录音,将这个录音文件发送给乌班图,由乌班图识别出来之后返回给arm板

1、去科大讯飞官网下载对应的sdk

进入科大讯飞官网 -> 讯飞开放平台 -> 离线命令词识别 -> 免费试用
    -> 下载对应的SDK-> 跳转到对应的sdk下载界面->注意下面三个红色框框的选择(下载sdk可能会提示要实名认证,认证就好了)

2、科大讯飞文件夹的意思

每个人下载的sdk都是不一样的

进入到\samples\asr_offline_sample,可以看到有一个makefile文件,我们在编译的时候直接make就可以了。make会找Makefile去执行,make完成如果没有报错,它会在bin目录里面生成一个asr_offline_sample可执行文件。

由于我们只用x64的库,所以我们用记事本打开makefile,将x86改成x64

在执行的时候要找到这个库  我们需要将这个库弄到 /lib文件夹

 sudo cp lib/x64/libmsc.so /lib

3、配置ARM的录音环境

链接:https://pan.baidu.com/s/1LZ0Lpj9DhqpMzhzYjp0xVg?pwd=scrt 
提取码:scrt

1、首先将alsa-1.0.tar.gz这个文件拷贝到开发板的 /home
     cp /mnt/udisk/alsa-1.0.tar.gz /home

2、在home目录里面解压这个文件
     tar xvf alsa-1.0.tar.gz

3、进入  alsa-1.0这个文件夹 
     cd  alsa-1.0
     进入这个文件夹里面的bin目录
     cd bin
     将这个bin目录里面的  arecord aplay这两个文件复制到 /bin
     cp arecord aplay /bin
    
4、 然后cd ..
     进入lib这个文件夹 cd bin
     将里面so这些动态库复制到 /lib这个文件夹
     cp libasound.s* /lib

5、回到home目录
      cd /home
      在home目录里面建立一个文件夹 叫gec
      mkdir gec
      继续在gec文件夹里面建立一个文件夹alsa-1.0.22
      mkdir -p /home/gec/alsa-1.0.22
      将这个alsa-1.0整体copy 到gec文件夹里面去 并且要换一个名字叫alsa-1.0.22(必须是这个名字)
      cd /home/alsa-1.0  进入这个文件夹
      cp -rf * /home/gec/alsa-1.0.22

6、录音环境配置完成,进行测试

      录音:arecord 1.wav  (ctrl + c结束)
      放音:aplay 1.wav

      录音4s,频率16000,保存为hehe.pcm:arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm
      放音:aplay -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm

(录音是arecord ,放音是aplay ,其他参数都是一样的)

4、编程实现语音识别

我们进行语音识别时,也是在网络编程,需要客户端和服务端。在这里,客户端是开发板,开发板进行录音,并将录音文件发送给乌班图。Ubuntu是服务端,接收开发板发送过来的录音文件,并进行语音识别,返回语句的id。

在第二部分我们知道文件夹中的bin存放可执行文件以及识别的音频。我们进入bin文件夹可以看到一个call.bnf,用记事本打开:

看到这个,我们就能知道语音识别仅仅能识别返回在call.bnf定义了id的语句,那怎么才能识别我们想要说的话呢?简单,我们自己在里面加就可以了。比如加个“打开蜂鸣器”:

有了这个基础,我们后面才能实现语音控制开发板。

现在先实现简单的语句识别,即开发板录音并将录音文件发给ubuntu,ubuntu进行语音识别,并返回对应语句的id:

建立两个文件夹:client和server

client文件夹存放客户端程序tcp_client.c

server文件夹存放科大讯飞的sdk和服务端程序tcp_sever.c

由于这次是传文件,和上一篇网络编程的传法还是有些不同的

关键代码:

tcp_client.c :

  1. void function(void)
  2. {
  3. unsigned char buf[1024] = {0};
  4. while(1)
  5. {
  6. //首先发送文件大小
  7. //阻塞你按回车
  8. printf("按回车继续\n");
  9. getchar();
  10. //弄你的文件
  11. printf("请录音4秒........\n");
  12. //获取音频文件
  13. system("arecord -d4 -c1 -r16000 -traw -fS16_LE hehe.pcm");
  14. int fd = open("hehe.pcm",O_RDWR);
  15. if(-1 == fd)
  16. {
  17. perror("open pcm error");
  18. exit(10);
  19. }
  20. int filesize = lseek(fd,0x00,SEEK_END);
  21. lseek(fd,0x00,SEEK_SET);//偏移到开头
  22. send(sockfd,&filesize,4,0);
  23. //接收信息 "error!!!" or "next!!!!"
  24. recv(sockfd,buf,9,0);
  25. printf("11111 %s\n",buf);
  26. if(strcmp(buf,"next!!!!"))
  27. {
  28. printf("服务器错误了\n");
  29. continue;
  30. }
  31. //如果是"next!!!!"发送文件
  32. while(1)
  33. {
  34. int r = read(fd,buf,1024);
  35. if(-1 == r)
  36. {
  37. perror("read pcm error");
  38. break;
  39. }
  40. else if(0 == r)
  41. {
  42. printf("over\n");
  43. break;
  44. }
  45. else
  46. {
  47. send(sockfd,buf,r,0);
  48. }
  49. }
  50. close(fd);
  51. //等待接收id
  52. int id;
  53. recv(sockfd,&id,4,0);
  54. if(id == 6666)
  55. {
  56. printf("打印");
  57. }
  58. printf("id ===== %d\n",id);
  59. }
  60. }

asr_offine_sample.c :

  1. //一个全局的科大讯飞的id 也就是我最终想要得到的结果
  2. int FlayId = 0;//0代表一个错误值
  3. //解析出相应的id出来 id固定为4位
  4. int StringToId(const char * str)
  5. {
  6. int id = 0;
  7. printf("------> %s\n",str);
  8. int len = strlen(str) - 3;
  9. //固定匹配 "id="这个字符串 模式匹配用正则表达式
  10. for(int i = 0;i < len;i++)
  11. {
  12. if(!strncmp(str,"id=",3))
  13. {
  14. str += 4;//id=" 这个字符串给过掉
  15. printf("------> %s\n",str);
  16. id = (str[0]-'0')*1000+(str[1]-'0')*100+(str[2]-'0')*10+(str[3]-'0');
  17. break;
  18. }
  19. str++;//一旦没有匹配 那么我们就往后面走一个
  20. }
  21. return id;
  22. }
  23. //语音识别 返回结果
  24. //返回的是ID 返回0表示识别失败
  25. int GetFlayId(void)
  26. {
  27. int ret = run_asr(&asr_data);
  28. if(MSP_SUCCESS != ret)//识别出错
  29. {
  30. printf("离线语法识别出错: %d \n", ret);
  31. return 0;
  32. }
  33. return FlayId;
  34. }

tcp_server.c :

  1. void SaveFile(int accceptfd,int filesize)
  2. {
  3. //每一次都是重复的覆盖hehe.pcm
  4. int fd = open("wav/hehe.pcm",O_RDWR | O_TRUNC | O_CREAT, 0664);//截短这个文件
  5. if(-1 == fd)
  6. {
  7. send(accceptfd,"error!!!",9,0);//失败发送这个错误
  8. return;
  9. }
  10. send(accceptfd,"next!!!!",9,0);//发送下一步的指令
  11. unsigned char buf[1024] = {0};
  12. int size = 0;
  13. //接收文件的内容
  14. while(1)
  15. {
  16. int r = recv(accceptfd,buf,1024,0);
  17. if(-1 == r)
  18. {
  19. perror("recv error");
  20. break;
  21. }
  22. else if(0 == r)//客户端已经断了
  23. {
  24. printf("对方断开连接了\n");
  25. break;
  26. }
  27. else//接收到信息了
  28. {
  29. //将文件的内容写入到文件
  30. write(fd,buf,r);
  31. //做完之后要退出
  32. size += r;
  33. if(size >= filesize)
  34. break;
  35. }
  36. }
  37. close(fd);
  38. }
  39. //专门用于去服务一个客户的线程
  40. void * ClinetFunction(void * arg)
  41. {
  42. pthread_detach(pthread_self());//将其分离
  43. int * accceptfd = (int *)arg;
  44. printf(" * accceptfd = %d\n", * accceptfd);
  45. int filesize = 0;
  46. //你发什么信息过来 我就在这个信息之前加上一节 然后回发给你
  47. while(1)
  48. {
  49. printf("\t\t等待客户端传文件过来........\n");
  50. int r = recv(*accceptfd,&filesize,4,0);//阻塞等待数据过来
  51. if(-1 == r)
  52. {
  53. perror("recv error");
  54. break;
  55. }
  56. else if(0 == r)//客户端已经断了
  57. {
  58. printf("对方断开连接了\n");
  59. break;
  60. }
  61. else//接收到信息了
  62. {
  63. //文件大小
  64. SaveFile(* accceptfd,filesize);
  65. int id = GetFlayId();//文件接收完毕 那么我们就放过去识别即可
  66. //给客户端返回id
  67. send(* accceptfd,&id,4,0);
  68. }
  69. }
  70. close(*accceptfd);
  71. free(accceptfd);
  72. return NULL;
  73. }

完整工程:

链接:https://pan.baidu.com/s/1thUvAArWzcqmOT6QrvGHew?pwd=yuyi 
提取码:yuyi

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/小舞很执着/article/detail/750043
推荐阅读