淘宝网数据平台与产品部数据产品总监赵昆有着一头艺术家式的飘逸长发。2009年6月加入这家中国最大的电子商务企业后,他逐步创立了淘宝自己的数据产品团队。他们的最新动作是,4月18日发布了面向卖家、第三方研究机构、媒体的消费者数据研究平台──“淘宝指数”,在这个平台上开放基于消费者搜索和交易行为的分析数据,供所有人免费使用。 淘宝目前拥有国内电子商务最大的交易数据量,总数据量已经超过30PB,并且还在以每月3PB的速度增加着,共有10亿多条产品信息和5亿多名用户的活动信息,每天超过8000万人次的独立访问。“淘宝拥有海量的数据,同时也必须面对数据分析带来的挑战。”赵昆说。 与他有同样想法的还有eBay中国研发中心分析平台与支付研发总监梁浒。梁浒所在的中国研发中心是eBay设在中国上海的技术支持中心,在这里,每天有上千人的团队为eBay全球提供技术支持,数据分析部门是其中最主要的团队。他认为,相比于B2C平台,淘宝和eBay这类C2C平台遇到的数据分析挑战更大,原因是“亚马逊和京东所有的商品数据都是自己的,可是在eBay,商品数据都在卖家那儿。”需要指出的是,两家公司的商品数据极为庞大,截至去年末,eBay的在线商品数目在3亿左右,淘宝的在线商品数则高达10亿,是国内拥有最庞大商品数的电商。 在淘宝所有数据里,有超过50%的数据属于非结构化/半结构化的数据,而在eBay,这一比例则高达95%以上。两家公司面临了相似的大数据处理问题,这迫使两家公司不得不关注它们对数据处理的能力。 不过,淘宝和eBay数据分析团队遇到的业务诉求不同,让它们二者分别走向了不同的关注点。在淘宝,日常运营的数据处理和计算是一部分,他们更致力于如何为用户提供产品化的数据服务。而eBay更关注在日常运营中,为内部各部门提供细致的数据分析支撑工具。 淘宝:迎合用户需求,将数据产品化 赵昆入职后遇到的第一个挑战,是来自宝洁中国的问询,“淘宝上人们对日化产品消耗和需求的数据是什么?”。 2009年,宝洁中国在淘宝开设了名为“e生活家”的旗舰店,销售剃须刀和洗发水、牙膏等套装日用品。宝洁考虑的并非销售额上的直接获益,而是认为淘宝能够提供一种创新的营销模式。对于一向热衷数据分析的宝洁,同样热切期望获得淘宝上的数据支持。随着品牌企业的逐步加入,有同样需求的企业卖家不在少数。 “既然这些需求很典型,为什么不做一个能够覆盖到这些用户需求的产品呢?”抱着这个想法,赵昆和他的团队开始将自己的工作定位于将数据产品化,以服务于需要数据的卖家等外部用户。 不过,他们马上就面临最棘手的数据处理和整合问题——淘宝此前缺乏数据体系:数据内容多样(日志型数据、文本型数据、关系型数据)、数据来源也很广泛(有商品维度、卖家维度、买家维度),并且这些数据分布在不同的数据库中。 在接下来的四五个月里,团队成员忙于数据处理问题。他们首先将原始数据进行规范化处理。同时,为了让分析工作更快速推进,他们将大多数非结构化的数据尽量转为结构化数据,比如将用户行为这一非结构化数据进行结构化数据处理。这些工作量非常庞大,在淘宝,数据的核心有三大维度:商品、交易和用户。此时淘宝内部开始确立明确的数据存储规则:网络平台上产生的所有数据都要被保留下来。这也意味着淘宝需要投入更大的技术力量,提高海量数据的存储和计算能力,并且需要不断提高系统的性能,压缩投入的成本。 不过,这仅仅是第一步,“我们要通过一种方式让用户能获取有价值的数据,让数据真正地帮助到用户的业务”赵昆说。为此,他们创造了一种树形方式对数据进行梳理。所有数据都基于这棵“树”进行组织,并且以“树”的方式展示给用户,这样用户获取数据的方式就像从一颗树的高处到末端根系,获得商品的从行业、类目、品牌、产品,到属性、店铺、商品等所有完整的、有关联的、有意义的信息。 这种方式打破了一般做法,通常在企业里,数据会分布于不同的数据库里,用户最终获取的是不完整的数据,数据分析完全由业务需求驱动,查询的成本很高。这种做法意味着,需要将分布在不同数据库中的数据组建关联起来,这样的关联降低了用户提取数据的成本,也让数据变得更加“聪明”。 “不过,淘宝需要动用很多系统资源,对数据做大量的预处理,尽可能降低数据的使用成本并且增大灵活性。”赵昆表示。 随后要开展研究数据产品的工作。因为淘宝对外开放数据,他们需要克服海量数据的安全问题,同时还要防止数据被恶意爬取等很多技术问题。到2010年3月28日,他们推出了淘宝第一个基于全量数据的数据产品——“数据魔方”,卖家可以查询行业宏观情况、品牌的市场状况、消费者行为等数据,涵括淘宝所有类目的交易、浏览和搜索数据。 卖家还可以根据自己的需求,选择使用“数据魔方”的专业版或者标准版的产品。专业版主要满足大卖家对行业数据的更细致分析的需求,同时也提供大卖家对自己店铺的交易和浏览的数据,现在宝洁已经在使用这款产品了解淘宝平台上用户购买日化消费产品的数据了。而标准版则主要为小卖家提供用户在自己店铺里交易和浏览的数据。“现在‘数据魔方’已经有大量的商家用户,其中有一半是活跃用户。”赵昆表示,用户的订购情况早已超过他们的预期。 继“数据魔方”之后,在今年的4月18日,赵昆和他的团队又推出他们的第二款产品 ——“淘宝指数”,这款产品进一步延展了淘宝生态圈的用户群,卖家、第三方研究机构、媒体机构都可以免费使用这款产品。与“数据魔方”相比,淘宝指数提供的数据相对单纯,主要是消费者在淘宝上的搜索商品和交易商品的数据。 不过,淘宝从来没有指望通过“数据魔方”赚钱,虽然它实际上是盈利的,但这从来也不是淘宝的目标。包括最近发布的“淘宝指数”,未来也不会有盈利的考虑。“我们只希望将淘宝数据平台的商业价值反馈出来,为淘宝生态圈的卖家、ISV(独立软件开发商)或者其他的电商服务。”赵昆说。 在淘宝这样一个巨量交易平台上,满足用户的数据请求和处理,是非常具有挑战性的工作。他们需要为用户呈现商品和店铺信息的实时变化情况,在技术上需要实现数据的实时和循环计算,同时还需要满足高并发的查询,以及在用户网络环境有限情况下数据请求的问题,这在传统数据平台是不太容易碰到的。 没有现成的技术支持,淘宝需要建立适合自己的算法,赵昆和他的团队一直在努力研发更好的技术。“对于数据来说,不是把它计算出来就好了,还包括怎样提供高效的查询,以及非常友好的展现,这些也是不能忽略的。”赵昆表示。 因为数据的多而复杂,淘宝一直在做数据挖掘,不过这是不得已而为之。“我们尽量提供一些方便的可视化产品,让用户自己去发现,而不是我们分析人员。”这或许也是淘宝致力于将数据产品化的原因之一。 eBay:以数据驱动运营,提升用户体验 “在eBay,如果不做数据分析和处理,我们就没法生存。”梁浒表示,和淘宝相对规范的售卖方式不同,eBay的业务以拍卖为主,并且还有“一口价”业务。相对复杂和多样的业务特点让eBay面临比淘宝更大的数据挑战,它的非结构化、半结构化的数据远比淘宝要高得多,这种数据高达95%以上,而淘宝这类数据在50%以上。 关注用户体验和数据分析是eBay从创立开始就有的基因。可以说,数据是eBay运行的血脉和经络。和淘宝一样,eBay同样保存了所有的数据,不过eBay对于商品的核心数据的定义是基于买家、卖家和商品这三个维度。 现在,eBay内部对于数据的利用已经深入骨髓,“以数据决定决策”已经是eBay内部上下的工作习惯。在eBay内部,各个业务部门的决策很大部分依据数据进行决策,包括他们彼此之间的协作,也都是数据分析平台自动按照每个人的职位、权限等进行系统的自动推送。这些工作的核心目标都是为了保证用户的体验。在eBay,用户的体验包括用户搜索的精确度、交易过程中有没有虚假的商品、买卖双方的满意度、网页的速度是否够快、操作体验好不好等等很多内容。在每一项内容里,eBay都会设定相关的指标,以达到用户满意度持续提升的目标。 在日常的运营中,eBay投入大量技术、资源在平台基础信息的过滤和清洗上,以保证用户的体验。eBay目前有3亿件商品,它会对卖家每天上传的文字、图片等500种因素进行分析,以保证商品描述一致性,那些重复上传的图片、或者不同卖家的相同图片不会在eBay上通过。而且对于卖家好评率将会被精确分析,以保证平台的信誉。同时,eBay会综合考虑卖家上传图片的清晰度、买家对卖家的打分、评论等所有信息。“那些各项指标表现良好的卖家将会在搜索中被呈现在前面。”eBay中国研发中心搜索科学产品研发总监逄伟表示。 除此之外,eBay也依据数据调整针对卖家的政策。比如三年前,eBay决定给相关卖家提供相关的优惠政策,对平台里的所有卖家进行各项指标的设定和评估,寻找其中符合参与该优惠活动标准的卖家。这里面涉及到对卖家过往历史信息的分析、以及给予优惠活动后为平台带来的价值的评估预测,需要大量的数据支持。 最具有挑战的是“沉默的数据”。这是用户体验极为重要但容易被忽视的内容。 “很多用户不会表达他们对eBay的不满,但是数据会告诉我们。”逄伟说,比如有人通过Google搜索一个产品,到达eBay页面,却很快关掉页面这一系列行为,eBay会定义为“东西太差了”;当买家向卖家发出发货时间的各种疑问,而卖家却不做响应,这也属于“沉默的数据”。 逄伟认为,虽然这里面会存在大量的噪音数据,但是定义这些行为还是有其不可忽视的意义。“通过对各项细节指标的监测、以及对这些指标的不断改进,有助于从各个细节提升用户体验。”eBay每年都会制定转化率目标,这些目标会逐层分解到具体的每个流程中、需要提升的用户指标中等各项数据里。 为了保证良好的用户体验,eBay做重要改进时都要事先进行测试。eBay已经开始借助互联网的力量进行这一工作——通过第三方网站外包给互联网上的用户。他们会通过数据去分析支付给测试者多少费用更合理,以保证测试的可靠性和成本之间的平衡。随后,eBay会通过系统自动监测这些账号的行为,将这些行为与用户日常数据进行比对分析,从而生成自动化的分析结果。 在用户体验上,eBay对于各项内容每年都设定持续改进的目标,不过,eBay将“有多少用户向其他人推荐eBay”作为最核心的效果来考虑,这个数字现在大约在80%左右。 鉴于对海量数据处理能力,eBay能够提供很好的服务承诺,比如对于出现投诉的商品,它会先代替卖家赔付给买家,随后再对卖家进行追讨。如果遇到假货投诉,一旦确定,eBay将会对卖家的商品进行下架。这也意味着eBay需要前期投入更大精力保证平台的信誉。梁浒表示,这些做法也让eBay同时也承担更多的风险,有些款项可能永远也追不回来了。 共同趋势:个性化推荐 无论是淘宝还是eBay,个性化推荐都是主要的发力点,这其实也是电商企业的共识之处。对于C2C平台商而言,由于其业务特点和海量的商品数据,面临的挑战更大。 赵昆寄希望通过个性化的推荐来提升用户的购物体验,基于这一目标,淘宝致力于为每一个用户提供个性化的界面体验和搜索结果。他打了一个比方,如果一个用户经常浏览的是档次较高的商品,那么淘宝给他展示的将不会是以低价为导向的商品。 最近,数据产品团队酝酿已久的一款个性化推荐的应用已经实现,他们在淘宝上推出了“我的衣柜”这一频道。 “它代表一种新的购物体验,以前我们按照商品属性呈现给用户商品,现在我们按照人群需求提供商品。”赵昆表示。在“我的衣柜”里,淘宝会根据用户过往的浏览搜索等记录,推荐用户可能感兴趣的人群特征,系统会通过不断地学习积累推荐,最终达到为每一个用户提供他喜欢的购物方式。这样的尝试也相继在其他一些频道展开,比如淘宝也在尝试针对用户中的年轻妈妈的购物偏好,推荐可能适合她们的商品。 赵昆同时透露,他的团队稍后将在淘宝上正式推出SNS应用。在淘宝上有熟人关系的用户是很大的群体,淘宝会基于他们之间的关系,提供全程购物分享的工具。同时,淘宝基于用户行为分析,帮助有相似需求的用户建立社交关系。“在购物环节中建立社交化的联系,挑战很大,不过这符合未来的趋势。”他表示。 赵昆认为,5年到10年后,互联网商业社会的核心主题将逐步从现在的社交时代,步入以数据主宰的时代。“这是互联网发展的规律,从初级阶段步入中高级阶段的互联网,其商业模式、业务形态、产品形式将完全基于数据之上运营。”他表示。现在,无论在内部还是外部,他都会说淘宝不是一家电子商务公司,而是一家数据公司,现在他的团队的愿景是,推动淘宝成为一家数据运营公司。 “现在这样的应用1%都不到,我们希望未来有更多这种应用。”赵昆说。 在eBay,相关团队也在进行相继的技术研发,同时也在推出相关应用。实现针对每一用户的个性化推荐是eBay致力实现的一个方向。在eBay上,它已经可以做到根据每个人的浏览搜索习惯,呈现不同的结果。 不过,它的另一项应用突破了自身、延伸到了线下。这是一项基于地理位置的个性化推荐,如果用户在手机上搜索eBay某一件商品,没有获取想要的结果时,会推荐离用户最近的沃尔玛等商家的商品信息。这一应用源于eBay与沃尔玛等线下商家的紧密的合作。 “在eBay,我们已经过了做简单的决策的阶段,现在是利用数据做运营决策的时候了。”逄伟说。