赞
踩
做语音相关的东西做了快一年了,从最开始的音乐检索到后来的音乐情感识别,一直都在人工智能的方面来做这些事情。后来搞了半年没搞出什么名堂,觉得作学术不是很感兴趣就开始做安卓,但是又不舍得放弃音乐和语音,所以安卓基本入门之后就开始重点转到多媒体处理相关的,稀稀疏疏的做了一些小玩意。
第一个是根据声音智能判断当前所处的环境,然后自动切换情景模式。因为我还是学生嘛,所以就设计了课堂、宿舍和餐厅三个场景。很简单,这三个场景是很好区分的。课堂上虽然老师会一直讲话,但是讲话会有明显的停顿,而且整体的能量是很小的。餐厅是比较嘈杂的,声音基本是连续的,整体能量是比较高的。而宿舍就是比较安静的环境了,能量也是最少的。首先开一个服务,然后每五分钟就录制十秒钟的声音,然后判断声音的连续性和能量判断出当前的场景,然后自动修改情景模式。
第二个是音乐伴奏提取器。一开始做的很简单,一方面只支持wav格式的,另一方面必须是双声道的。原理很简单,就是两个声道的乐器声音分布是不均匀的,而人声的分布是均匀的。然后用一个声道减掉另一个声道,剩下的就是乐器声音了。一开始将所有数据都读到内存中,后来又加了缓冲,内存占用大幅减少。后来找了一个工具,将mp3转为wav,曲线救国。但是保存的文件还是wav格式的。
第三个就是基于内容的音乐检索系统,主要使用fingerprint算法,基于google gmusic实现的。这个库目前只支持wav数据,所以还是要先解码其他格式的数据。
以上就是我2014年做的事情。好少啊!基于以上原因,我做的这几个小玩意都要解码音频,所以音频的编解码成了我重点关注的地方。因为ffmpeg是世界上最牛逼的多媒体库,所以我就准备开始认真研究他了。
一直在写java程序,所以我第一步就是重新熟悉c语言和编程环境,而在linux下面做起来省事一些而且我对linux还是比较熟悉的,所以就选择了linux,开始了make gdb的生活。
首先是从官方下载最新的源码,下载之后解压,然后进步解压得到的目录执行经典的“./configure”"make""make install",可能会出现一些依赖错误,手动安装依赖就可以了。
安装好之后执行“ffmpeg”命令,看到出来的信息还是激动了以下。然后就开始写程序,一个简单的测试代码:
<span style="font-family: Arial, Helvetica, sans-serif;">first.c</span>
- #include <libavutil/opt.h>
- #include <libavutil/mathematics.h>
- #include <libavutil/imgutils.h>
- #include <libavutil/samplefmt.h>
- #include <libavutil/timestamp.h>
- #include <libavformat/avformat.h>
- #include <libavcodec/avcodec.h>
- #include <libswscale/swscale.h>
- #include <libavutil/mathematics.h>
- #include <libswresample/swresample.h>
- #include <libavutil/channel_layout.h>
- #include <libavutil/common.h>
- #include <libavformat/avio.h>
- #include <libavutil/file.h>
-
- int main(int argc, char * argv[]) {
-
- av_register_all();
- avcodec_register_all();
- return 1;
- }
头引得有点多。然后编译运行。因为要链接的库比较多,直接gcc的话我搞不定,于是就找到官方提供的example,然后修改了一下他的makefile文件,拿过来就自己用了。也放上吧
- # use pkg-config for getting CFLAGS and LDLIBS
- FFMPEG_LIBS= libavformat \
- libavcodec \
-
- CFLAGS += -Wall -g
- CFLAGS := $(shell pkg-config --cflags $(FFMPEG_LIBS)) $(CFLAGS)
- LDLIBS := $(shell pkg-config --libs $(FFMPEG_LIBS)) $(LDLIBS)
-
- EXAMPLES= first\ #加了新文件可以直接在这添加
-
- OBJS=$(addsuffix .o,$(EXAMPLES))
-
- # the following examples make explicit use of the math library
- #avcodec: LDLIBS += -lm
- #muxing: LDLIBS += -lm
- #resampling_audio: LDLIBS += -lm
-
- .phony: all clean
-
- all: $(OBJS) $(EXAMPLES)
-
- clean:
- $(RM) $(EXAMPLES) $(OBJS) test.*
顺便推荐一个好的makefile教程
跟我一起写Makefile 。免不了的要调试程序的嘛,再推荐一个gdb的教程
gdb入门,这是一系列。这样就开始了我的ffmpeg历程。目前还是很顺利的。
Copyright © 2003-2013 www.wpsshop.cn 版权所有,并保留所有权利。