张春晖让视频的每词每句都可搜索:Autotiming 可以自动配字幕,还将改变哪些领域?
对于一些电视观众来说,寻找电视节目字幕中“有趣”的Bug,拍照发到网上与其他人共同嘲笑一下,是一种观看节目之外的乐趣。从另外一个角度来说,匹配字幕很可能是电视台里最枯燥和耗时的工作:一个小时的对话节目通常需要付出双倍的时间。
创业公司AutoTiming相信它的产品可以改变这个精度高、耗时长的工作。这款同名工具采用了一种音文匹配技术,可以自动将视频或者音频节目和字幕文件同步起来。AutoTiming的CEO张春晖表示,与传统人工多采用句对句的匹配方式不同,这种技术能落实到词对词。它不仅可以将配一个小时节目的时间减少到5至10分钟,而且避免了以前一旦一个地方出了差错就要全部重新调试的问题。
2011年,当时还是松禾资本投资总监的张春晖在北京认识了AutoTiming三个人的团队,其中有两名科学家,分别在英特尔声音研究院和中科院声音研究所工作过。他们2006年开始创业,从事语音识别的开发。
他发现这个团队所采用的算法理论与其他人不同。通常开发语音识别技术使用的核心都是“马可夫过程统计模型”。这个团队也在这个模型上花费了很多时间,但迟迟无法取得突破。后来他们自己尝试重新设计一套算法,但许多投资人因为不够了解而没有跟进。张春晖很感兴趣,最后进行了投资。
语音识别的技术虽然一直在演进,但能够商用的突破还是十分少。人们寄望很高的ASR(Automatic Speech Recognition)技术,实现的难度仍然很大,类似于Siri和Google Now这类的应用至今更多像是一个玩具。科大讯飞也是把研发重心投到了难度较低的TTS(Text to Speech)上才在市场上获得认可。
张春晖发现的这个团队当然也面对这些问题,但到2011年时他们已经试着推出了字幕匹配的测试产品—简单来说,只听音频就能自动生成字幕可以理解为ASR,而这个应用则是将已有的音频和字幕文件进行匹配。
当时团队里的另一个人开始尝试去寻找电视台合作,但国内电视台的这类合作通常需要中间商,像他们这种小团队很难争取到机会。张春晖的加入帮他们解决了一些资源问题,直接跟北京以及其他少数几家电视台的一些录制类节目联系上,他们最终得以给后者提供免费半年的试用。
自动匹配字幕也并非什么新玩意,在美国由于从1976年开始要求所有视频节目都需配上字幕,所以许多公司一直在研究有什么方法可以代替这种人工工作。“他们目前的准确率和稳定性还是不够,比如说有些只能处理单人演讲,有些只能处理30分钟以内的,有些对口音要求不能太重,而我们这个团队之前一直在努力解决这些问题”,张春晖说。
给电视台试用的一个好处是,它能够提供更多的“语料”给数据库,这样算法本身也能不断分辨并改进,尤其是要克服语音技术里都无法避免的两个问题,口音和噪音。而这个过程也让张春晖有了一个观察和判断的机会,在试用期满后,几家电视台都愿意采购,北京电视台提供的一份使用报告里认为精准率能达到97.8%以上。而在国内,还没有类似的竞争对手出现,其他系统仍然是采用人工“拍字幕”—一句话过去,就跟一句字幕。而他在和美国电视台的接触中发现,2010年美国的字幕市场总量达到了16亿美元。
这也促使他在去年下决心真正成为这个项目的参与者。“我很希望他们能继续做研究,后面的东西会更大,但字幕的技术已经成熟,他们没有精力做就埋没了,所以我的任务就是组个团队来运作,把它正儿八经地商业化”,张春晖说。
而另一个原因则是张春晖也开始对做投资感到厌倦,2009年加入松禾资本担任投资总监,如今看来只是他职业生涯中的一个插曲,作为中国互联网最早的参与者之一—在1995年接连创建了当时中国第一个网页和公众BBS,算上之前成立的一家网络安全公司和一家新媒体公司,这已经是张春晖第三次创业。
做出决定后,张春晖在松禾的工作转向了投资后期,而把很大的精力放在了AutoTiming上,这是他新起的名字。团队的组建很顺利,大部分都是他之前的员工,他们的任务就是在这个技术之上去开发产品。而原有的小团队可以独立继续“可信智能算法”的研究。
字幕匹配是最早成熟的产品,不仅是电视台,许多字幕服务公司,教育机构以及其他跟视频制作有关的组织都是他们想要争取的客户。但对张春晖来说这只是它计划中的一个小分支,AutoTiming的一个特点就是其语音是按照每个字或单词来匹配的,经过这种打散的处理,某种意义上一个视频就被切分为了一个一个的字词,这样带来一个好处,即是用户可以通过搜索字词来找出想要的视频内容,或者直接在字幕中点选字词来控制播放进度。
“由字幕搜索产生的视频搜索,视频得以碎片化,碎片的生意才是长远的。”张春晖说。
这也是目前AutoTiming另外一个主要开发的产品MAM(猛犸媒资管理系统),它可以将客户视频数据库中的内容进行字幕匹配,从而使其可以使用字幕搜索而非以往的标题或标签搜索来提高视频管理效率。
AutoTiming也向外提供了开放的API接口,这样用户就可以直接在自己的网站上将视频和字幕文件进行匹配,而它们也准备向一些播放器提供SDK。
PS:现在官网打不开了,公司和项目不知道还从不存在了。
张春晖目前还没有将这些功能正式向客户推广,他打算先将产品完善好。“电视台是肯定要谈的,但我们想告诉传统电视台说视频是可以这样来玩的,它可以是什么样的,而不是说我来帮你配字幕吧,这是个简单活,不用着急”,张春晖说。
不过在前期宣传AutoTiming时还推出了另外一款在线教育的产品,中文名叫“此时此课”。它的内容主要以高校公开课为主,包括了一字一音跟读、字幕搜索。张春晖希望先用这个更多带有公益性质的产品让人有所体验,但他的计划仍然是针对公司,而且会优先面向美国市场。“美国电视台有钱,需求明确,也有付费习惯,它是目前这个应用最赚钱的市场”,他说。
而另外一个他们将会投入精力去做的是舆情管理产品,面向上市公司和政府。AutoTiming的目标是和全球知名的电视频道达成合作,而以往对电视媒体的监测时效性上其实并不好,AutoTiming打算做成一种依靠字幕关键词订制而来向客户推送实时视频的模式。
目前AutoTiming开发团队还在试验的是如何把美国电视频道的内容加工处理后放到统一的一个视频平台上,他们也需要这个Demo接下来去跟客户们谈。
在2013年中亮相之前,AutoTiming已经拿到了Socius资本、庞华公司以及王利杰、曾李青等人的天使投资,但张春晖并没有透露具体数目。AutoTiming现在除了广深以外,在苏州、新加坡、洛杉矶都设了分点。张春晖对AutoTiming技术门槛的判断是还有一年的领先时间,现在公司的收入还是来自于一些字幕匹配,而未来要做成大生意,还得看如何争取到更多的内容生产方的合作。
YouTube现在每分钟有着72小时的内容上传,如果每句对白和所讲内容都可以通过这种形式被搜索到,将会形成一个极大的文本信息库,甚至可能会被用以舆情监察。
最直观能想到的,可以运用该技术的领域就是在线教育。多年以来,英语学习者都热衷于用《老友记》训练口语,并且还有各种牛人分享了老友记的脚本和自己的笔记。运用该技术就能逐个词汇地倒视频回去重听重看了。碰到了新词还可以搜索该词在所有视频中的出现频率,观看所有该词汇出现的视频段落,在不同语句中、不同场景下的运用。新东方在线教育已经运用了该技术,学生通过文字搜索能够找到教师在网络课程中说的课程要点信息。
对于普通用户而言,从2013年7月开始,运用了该技术的ATPlayer播放软件即将提供下载,其播放内容为所有市面上的公开课内容,起名为“此时此课”。张春晖说:“就像看网易公开课、新浪公开课一样,我们先做公开课的服务,在你有我有(内容)的基础上,提高教育效率和互动体验,提供内容传播手段。”同时,在播放器中可以通过Google翻译将自带的中英文字幕翻译成所有支持的语言——尽管未必非常准确,但一定程度上打破了观看视频的语言障碍。