这是一个有待开垦但极有机会颠覆现有搜索格局的新领域。
文/樊兰
随着从去年到今年200多家视频网站的蜂拥出现,人们享受到了普及化的在线视频服务,但很快也发现,寻找自己想看的视频,跟当初在Google(www.g.cn)诞生之前的互联网上查找网页一样困难。 面对着视频搜索—这个可能颠覆现有搜索格局的新领域,无论是先行者还是后来者都在摩拳擦掌。曾经以搜索起家的门户巨头们如新浪(www.sina.com.cn)、搜狐(www.sohu.com.cn)、雅虎(www.yahoo.cn)纷纷抢在搜索巨头的前面推出自己的视频搜索服务,试图重新引领下一个时代的辉煌;而腾讯(www.tencent.com.cn)这样的新生门户也力图拓展自己新的版图,分得视频搜索的一块蛋糕;百度(www.baidu.cn)的视频搜索在今年2月才正式上线,但一上来就以产业整合者的气势推出《互联网视频开放协议》;Google从2005年开始就在视频搜索领域进行全球布局,在国内推出视频搜索服务只是迟早问题;微软也早已把视频搜索作为其战略性的技术投入;而OpenV、雷搜(www.leexoo.cn)这些新兴的视频垂直搜索引擎,则以挑战者的姿态出现在这些巨人面前。 技术为王 在搜索技术和用户需求都与传统的文本搜索大相径庭的视频搜索领域,这些或大或小、或新或老的公司,都回归到同一条起跑线上,需要通过全新的技术来建造自己的安全壁垒。易观国际(www.analysys.com.cn)高级分析师刘克宇认为,原有的门户和搜索巨头固然有流量的优势,但目前“技术还是最重要的,只有通过好的技术不断提高搜索结果的精确度,才能通过分析用户的搜索行为挖掘用户潜在的需求,以提高广告的精准性。”最后,才能带来收入。 在视频搜索领域,技术为王。那么,这些林林总总的视频搜索引擎背后到底是怎样的技术?目前视频搜索的技术主要分为三类,第一类是基于传统的文本搜索,利用视频内容所有者提供的视频标题和简介内容来搜索视频,这也是目前绝大多数视频搜索引擎呈现给我们的形态。 如果你要看一段林志玲的视频,搜出来的必定是标题或简介中出现“林志玲”这三个字的视频,这种搜索方式只是简单地把传统的文本搜索搬到视频搜索中,而在视频分享网站上,大多数视频都是用户上传的,其描述并没有统一的标准,还有人会恶意不如实地描述内容,你想看的是林志玲最新代言的婚纱的展示秀,搜索出来的结果却可能是蔡依琳的一支MV。因此这种搜索方式的准确率不高,已被业界公认会被最终淘汰。 但如果听一段视频里的声音,就会知道这是蔡依琳的《舞娘》这首歌的歌词,而不是一场婚纱秀的音乐。文本结合上声音,大大提高了搜索的准确性,这就涉及到第二类视频搜索技术—语音分析。 英国非结构化信息智能处理公司Autonomy(www.autonomy.com.cn)是这一技术的代表,它的音频辨识模块可以将视频中的音频部分实时转换为可搜索的文字内容,并且同时辨别视频中的内容和屏幕上的文字与数字,支持英、法、中、意、俄等等数十种语言。Autonomy在美国开办了著名的视频搜索网站Blinkx(www.blinkx.com.cn),为微软、雅虎提供技术,在中国,百度、腾讯Soso、OpenV等采用的也都是Autonomy的技术。 分析人士认为,音频分析最适合电视台的新闻内容,播音员在安静的环境下用标准的语速和标准的普通话进行播报,但如果有非常嘈杂的背景音乐,音频分析也会束手无策。还有一种情况就是,如果你要搜刘若英的一首《分开旅行》的MV,搜出来的虽然是那首歌,但也许是“后舍男生”恶搞的版本。 视觉特征分析 这就需要另一类技术—视觉特征分析。在微软从事MSN搜索的一位人士告诉《互联网周刊》,视觉分析技术是视频搜索中最具挑战性的技术,将是未来搜索引擎竞争的重点。视频是由图片组成的,比方说一秒25桢,视觉特征分析会通过对每个图片桢的分析,达到对整段视频的分析。 目前在视觉特征分析领域处于前列的是微软和Google。微软最擅长的是人面识别,据上述微软人士透露,从两三年前,微软亚洲研究院(www.msra.cn)的视觉计算组就开始研究人脸识别技术,分析人脸模式的内在结构,并进行有效地建模。微软建立了一个庞大的数据库,对一些人的面部特征进行采集,并建立索引,以便识别。 Google在去年8月收购了专攻图片识别的NevenVision公司,这家公司拥有15项与图像分析和面孔识别有关的专利技术。Google公司的Picasa图片共享服务的产品经理AdrianGraham许诺,“总有一天会开发出用来识别图片中的人物、地点和对象的技术。”以图片识别为基础,视频识别也会有所突破。 除了这两大巨头的战略性投入和并购之外,在国内也有一家名叫力矩传媒的公司在进行视觉特征分析的商业化研究。这家公司的前身是该公司股东与中科院在2003年联合成立的一个近30人规模的实验室,一直在低调地从事视觉特征分析的核心技术的开发,目前总共投入了近300万美元,2006年底,这家公司正式推出了自己的视频搜索引擎—雷搜(Leexoo)。据雷搜的副总裁郭介绍,雷搜的原理是从形状、纹理、颜色、动作等多方面对画面里的物品进行分析。他举例说,大海的特征就很明显,颜色是蓝色,面积很大,占画面较大的比例,并且往往会配合沙滩、蓝天等景物,这些因素综合起来,就很容易分辨出大海。雷搜并不具备人面识别的技术,因此它主打体育视频的搜索。郭说,比如要搜齐达内进球的视频,我们虽然无法从面部识别出齐达内,但他的球衣及号码却很容易识别,我们会建一个球员的数据库,从球衣上判断是哪个队,然后根据号码找到这个球员。 然而,现在的视觉特征分析技术仍然处于雏形阶段。微软技术能识别的大部分是人物,人的面部必须占据很大画面且面对镜头,如果是侧面,就有较大困难,因此Google和微软的这类技术目前主要运用于图片搜索,并没有大范围应用于视频搜索服务中。雷搜目前能较为精准识别的也只有大海、树木、汽车、手机、男人、女人、动物等特征较为明显的30个概念,郭说,随着这个核心技术和全球的相关技术水平的进步,视觉分析的精度会越来越高,能更好地满足用户的需求。他乐观地说,如果我把足球视频这一块做专了,让喜欢足球视频的人都到我这里来,这一块市场也足够一个小公司生存了。 未来的核心 网络用户最初从门户下面的搜索引擎转到了Google和百度这样的专业搜索引擎,接下来会从Google和百度转到其他的视频搜索引擎吗?在航母级的门户和搜索巨头面前,新兴的视频搜索引擎会有机会吗? 在刘克宇看来,“视频搜索行业短期内不会形成传统搜索引擎领域那样由一两家运营商主导市场的局面。传统搜索厂商的业务重点仍将是网页信息图文搜索类服务,视频搜索在短期内只是其多元化策略之一。”这也是雷搜这样的小公司在大鳄面前依然保持自信的原因,“我们在视频搜索方面更专注,并且核心技术必须是从基础一步一步做起来的,是需要时间的,并不是说我花费1千万元能在一个月做完,花费2千万元就能半个月做完。” 在各个搜索引擎精心布局的同时,不能忽略的是整个互联网视频行业处于水深火热之中的现状。大多数视频网站面临着“流量变不成钱”的尴尬,在生死的边缘挣扎,一个月三五百万元的大笔投入,流量虽大,收入却与此不成正比。 新浪CEO曹国伟认为,现在的视频“还是一个市场的培育期”,他对《互联网周刊》说,视频搜索就像以前的网页搜索引擎,当网页达到一定量的时候,才会有一个比较规模化的网页搜索;视频也一样,首先要有大量的视频在网上出现,然后视频搜索才可以变成一个规模化使用的产品,然后才会有广告,我觉得这是一个必然的过程。 除了网络视频的规模因素之外,刘克宇认为,视频内容同质化较高、缺乏优秀的内容,广告的精准性不高,也导致广告主对视频网站的广告投放仍处于尝试阶段。中小企业的点击广告不太适合在视频网站上投放,大企业又担心自己的品牌形象与黄色、暴力或盗版的内容联系在一起,也不愿意在视频网站上投放品牌广告。 而在郭看来,挽救视频行业于困境的也许就是视频搜索引擎。未来的视频搜索引擎不仅是视频行业的流量核心,也会是价值核心,是整个视频行业的广告平台。他说,视频搜索的关键词都是特定的,比较有限,视频搜索引擎不能照搬文本搜索那种关键词广告的商业模式。“我们未来的主要收入来源可能不是本站的广告,而是广告平台的收入。视频网站里面也有很多有价值的视频,我们做的事情就是运用我们的视觉分析技术,把这些有价值的视频筛选出来,然后按照广告主的要求,将广告与网站的视频实现精准的配置,我们与视频网站实现共赢。” 无独有偶,4月5日,百度发布了《互联网视频开放协议》,让网站将发布的视频内容制作成百度规定的XML格式网页,便于这些视频及时被百度收录。这既能增大双方的流量,同时,统一的视频格式也意味着未来统一的视频广告标准,这也预示着百度想成为整个视频行业的广告分发平台的野心。 目前的视频搜索,正是狮子和羚羊一起赛跑的阶段,一切取决于速度。正像郭所说的,“也许多年以后,我们也会是互联网行业一个代表性的神话。”但也有更大的可能,他们会是默默无闻。