年轻的数据分析师Neo正在北京郊区的一间四面是墙的会议室面对着一大堆销售数据,他的工作是对它们进行检索、排序、过滤和分类,并希望能在其中找到一些趋势,从而能够给客户提供一些尚未引起重视的角度。
“在一张正方形的图纸上,横轴代表对不同产品利润率的预期,纵轴代表每一次销售的实际利润率,然后一个点代表一次销售──如果是销售了产品A,那么就在横轴上找到对产品A利润率的预期,纵轴上找到该销售实际的利润率──这张图的对角线就是销售利润率满足预期利润率的分水岭。这样的数据表现方式展现了许多被人忽视的趋势,比如同一产品竟然会有如此的利润率差异,一些产品的利润率预期根本高得离谱,以及不同渠道带来的显著的利润率差异……”
很多人已经开始被Neo的这张图表搞晕了,不过很快又明白过来,兴致勃勃地和他讨论起数据背后的生意经来。Neo时常会想,在中国这样一个重视关系和人情的文化中,数据到底能发挥多大的作用?Neo希望有朝一日能借助互联网这个大数据库将数据分析应用到更广泛的商业活动当中。
当Neo正在为自己的这些想法兴奋时,他所期待的未来其实正在发生……
言情片影迷和汽车租赁公司
“言情片影迷和阿姆斯特丹汽车租赁公司有什么关系?”
《The Numerati》(中文译名《当我们变成一堆数字》)一书的作者斯蒂芬·贝克(Stephen Baker)向他的采访对象——Tacoda公司的创始人摩根问道。问题的由来是Tacoda在检测阿姆斯特丹汽车租赁公司的网络横幅广告的点击用户时发现,排位第二大广告受众来自言情电影的网站。两者之间的关系令人费解,但事实就是在言情片网站展示阿姆斯特丹汽车租赁公司的横幅展示广告效果非常好。
几个月之后,Tacoda公司以2.75亿美元的价格并入美国在线,当斯蒂芬再次见到摩根时,后者说终于找到了那个令人费解的问题的答案:周末。于是阿姆斯特丹汽车租赁公司的广告部制定了“周末大逃亡”的休闲营销方案,吸引来了众多网民的眼球。言情片影迷租赁汽车大多是为了周末的休闲旅游。
上述情况给数字科学家们带来了新的挑战,他们不仅要描述网络用户的品位和嗜好,而且要洞悉人类不断变化的心情。
当我们在互联网上点击一首哀伤的歌曲或者一部言情电影的视频时,是否不经意间透露了我们当时的心情?我们快乐吗?我们在沉思什么?这是一片富含人类行为数据的尚未开垦的沃土和金矿。不管你是否愿意,技术的普及会让这种未来逐渐变为现实。随着越来越丰富和完整的数据被收集和保留,人类透过互联网点击留下的愉快、哀伤和灵感将被更准确的记录和理解。
事实上,数字科学家已经渗透到日常生活的每个领域,他们将我们描绘为工薪族、购物者、选民、博主、潜藏的恐怖分子、病患者,甚至是恋人。他们在公司洞察我们的电子邮件和电话记录,来推测有多少员工真正在为公司的盈利添砖加瓦。他们分析我们的购买行为,以搞清我们是在节衣缩食、瘦身,还是有新的理财计划。从保险公司到奥巴马竞选团队,他们雇佣大量Neo或者比Neo更资深的数字分析专家,从一大堆数字符码中过滤出宝贵的趋势和观点。在数据爆炸的世界里,懂得利用数据、运用数学的权威们的地位正在蹿升。
那些互联网上的数据权威
互联网正在成为一个巨大的数据库和营销平台。正如Neo分析过那些销售数据后所想到的,面对尚未开垦的数据金矿,我们既缺少足够大量的原数据,也缺少挖掘、分析数据的模型。
几乎没有人不知道Google,其实它的开始仅仅是因为找到了一个理解网页链接数据的模型。可能未必很多人都知道另一家叫comScore的公司,它负责采集更基础的网络数据,它的地位确立却和Google有关。这家2007年在纳斯达克上市的第三方互联网流量跟踪测评机构,曾在2008年年初的一份报告中指出,Google在美国市场获得的付费点击次数增长放缓。comScore这一报告对Google股价随后的大幅下跌起到重要的推动作用。
尽管后来Google凭借海外市场的业绩增长令其股价回升,证明分析师对comScore给出的美国市场数据的解读是片面的,但comScore在互联网媒体中权威测评机构的地位得以确立,与其并列的是电视行业的AC尼尔森,广播行业的Arbitron。互联网广告网络公司Federated Media创始人约翰·巴特利(John Battelle)甚至说:“当宝洁对你说,除非你拥有漂亮的comScore数据,否则不会在你的网站上投放广告,那么你就会问,‘我如何才能提高自己的comScore数据’?”这使得comScore成为网络广告大战中的裁判,而这一市场的价值已高达250亿美元。
在上海张江孵化中心,也有一家要成为中国的comScore的公司——讯实网络。公司创始人于辉发现,和美国互联网市场明显不同,在中国,网吧上网用户的行为数据是解读中国互联网市场变化的重要指标;同时,和欧美用户主要通过浏览器访问网页来实现网络生活不同,客户端软件明显地切走了中国互联网一大块流量。近两年的数据还显示,单个用户通过客户端上网的时间呈集中化的趋势,比如80%的时间是游戏或者看视频。这种现象带来的商业影响可以举个例子,比如有的用户常年依赖淘宝,上网几乎就是上淘宝,他甚至会从淘宝买一本书,而不会去考虑,其实卓越或当当的同样一本书更便宜,更不可思议的是,淘宝卖书的店主很多时候就是从卓越和当当进书。
讯实网络现在每天记录60GB的数据,很快就会增长到100GB,面对越来越多的数据,于辉有时候会有和Tacoda的摩根类似的困惑,比如一些汽车广告的点击来自一些英语学习网站的用户,于辉的解释是,也许他们学英语是为了出国,出国就有可能需要租车、学车或者买车,这种理解的价值就在于,于辉可以告诉汽车广告主应该把广告放到英语学习网站上。而上面提到的阿姆斯特丹汽车租赁公司的广告的受众中,比言情片影迷更多的第一大点击人群竟然是那些访问过在线死亡名单的用户,对于这些离奇的关联性,摩根至今没能找到明确的答案。但每当想起还有如此多问题需要回答,这些数字专家们的脸上就会泛起孩童般的微笑。