海量数据存储方案 拷问大数据 从「海量」到「可用」有多远



系列专题:大数据营销

     凯文·凯利来了。

  这位被人们亲昵地称为“KK”的互联网思想者,前不久飞抵北京进行学术交流。有意思的是,KK随身携带一个小型传感器,据说能随时随地搜集信息,包括他的地理位置、体温、心跳、血压等,然后传到他的笔记本上,再由笔记本传到云上。

  在这个信息爆炸的大数据时代,一个人的所有行为和轨迹都能被跟踪、记录、存储、分析,在西方世界,它有一个非常成熟的名字,翻译成中文是“量化你自己”。

  当然,这是非常高级的数据研究和应用。“除了上帝,都必须用数据来说话”。刚刚出版面世的《大数据》作者徐子沛旅美多年,也是信息学方面的专家。

  在庞大和复杂的数据运转中,几乎所有的行业都与数据沾上了关系,互联网亦如此。据悉,一分钟内,Twitter上新发的数据量超过10万,Facebook上的浏览量超过600万……

  目前在中国,大数据很热,就像夏天徘徊在35度左右的高温。不可否认,大数据的爆发正在改变企业的传统商业模式。尤其在互联网领域,基于数据挖掘的业务方兴未艾,第三方数据开发的基础建设平台异军突起,也吸引了不少资金竞相猎食此类公司。

  凯鹏华盈创投基金(KPCB)主管合伙人周炜一直在寻找创新型的互联网广告公司,在“钟情”秒针之前,周炜寻觅了两个月。“秒针做得比较纯粹,有独到之处。绝大多数互联网广告公司其实没有太多技术含量,虽然大家都在做精准的数据挖掘,但是没有太多实际的东西。”技术出身的周炜说。

  而IDG资本也早已布局。去年夏天,IDG资本和名力中国成长基金高调投资百分点科技720万美元。“互联网信息爆炸会带来有关数据处理、数据分析挖掘等领域新的发展机会,同时,也看好电子商务延伸产业链条、移动互联网以及如八百客公司那样面向中小企业提供在线软件和信息服务的模式。”IDG资本合伙人、副总裁李丰认为。

  数据挖掘公司真的是投资人眼中的富矿?“大数据”似乎看上去很美,但在从“海量数据”到“可用数据”的嬗变中,还需解决怎样的难题冲突?关键是,处于粗放经营的中国企业,如何真正释放数据价值,如何真正由数据转化为效能?

  “大数据”伪命题?

  数据不准确、取数难、维护难

  大数据(Big Data),已经是炙手可热的流行语。

  世界经济论坛去年发布报告,认定社交大数据为新财富,价值堪比石油。

  以下是一则典型的在大数据“富矿”中掘金的财富故事:华尔街“德温特资本市场”公司CEO霍廷利用电脑程序分析全球3.4亿微博账户留言,进而判断民众情绪,并依据分析结果决定如何处理手中数以百万美元计的股票,原则很简单:如果所有人似乎都高兴,买入;如果大家的焦虑情绪上升,抛售。这招收效显著,霍廷的公司今年第一季度获得7%的收益率。

  在美国,一些社交网站产生的数据不仅为金融机构作出决策提供线索,同时也为总统竞选团队了解选民和卫生机构分析疾病传播状况提供支持。谷歌公司与美国疾病控制和预防中心等机构合作,依据网民搜索内容分析全球范围内流感等病疫传播情况。

  似乎,“大数据”时代已经到来。

  根据市场研究机构IDC的研究结果显示,2011年创造的信息数量达到1800EB,并且还在以每年60%的速度高速增长,到2020年,全球每年产生的数字信息将达到35ZB。而其中更多的数据增长来自非结构化数据(每个ZB=1024EB=10万亿GB)。

  超大量的数据,到底多大才算大呢?徐子沛对此有个形象的比喻:我们一般认为按π为单位的数据就是大数据,π下面的单位是GB,一部电影大约一个GB,一π就等于1024个GB,也就是说,一千多部电影那就算大数据了。再比如,美国国会图书馆是比较大的图书馆,它所有的印刷品如果都输入电脑的话,也才是几十个π。

  但并非大数据就有价值。“在地球任意地方捡起一块石头,都可以验出铁元素。但是,说世界遍地都是铁矿一定是胡扯。只有石头中铁含量超过一定比例,而石头数量又达到相当规模,这堆石头才能称为铁矿,人们才会对它产生投资开采的兴趣。” 知名IT评论人,曾任雅虎中国总经理的谢文如此点评“数据大”与“大数据”的区别和价值。

  中国的大数据领域到底有多少活跃迹象?

  在谢文看来,当下该领域的商业前景有被过分夸大的嫌疑。

  “目前尽管一些公司里有些专家在做数据整合与分析,也有一些专门从事数据发掘的公司、工具和专业服务,但总的看起来,数据收集、整理、挖掘所需的成本与产生的效益相比,性价比不高,吸引力不大。”他认为,现在国内数据挖掘行业的尴尬在于,“就像前面说到的贫铁矿一样,含金量不高的数据无论规模多大,挖掘多深,也是形同鸡肋,食之无味,弃之可惜”。

  一方面是热闹的有关大数据价值的研讨会一场接一场,各类公司对外宣布进军大数据领域的决心,这里也是投资人最活跃的领域,是技术和服务供应商最热心的话题。

  另一方面置身其中的业者很苦恼,为什么大数据只打雷不下雨?“不是没有业务需求,而是需求还是不可实现的!”支付宝首席商业智能官车品觉认为,搞数据的人最苦恼的是数据不准确、取数难、维护难。

  在他看来,BI(Business Intelligence,商业智能BI)的首要任务是用好数据科学决策。商业智能通常被理解为将企业中现有的数据转化为知识,帮助企业做出明智的业务经营决策的工具,包括搭建数据仓库、数据分析、数据挖掘等。“小公司、小团队还好;规模大了,数据仓库治理是个大难题。”他认为,现在的BI离业务远了点,若是能和产品经理结合到一起就更为强大,但苦恼的是,“现在一般产品经理的数据分析做得太差,往往是拍脑袋做决策”。

  徐子沛对此也颇有感触。国内已有各种数据库的基础比较薄弱,由于数据作假、数据泡沫等现象,很多数据的真实性、有效性有待考验。

  事实上,大数据在中国远没有落地,目前很多问题还没有解决。

  在谢文看来,即便是谷歌,直到Google+诞生前,也不能声称自己是个大数据公司。

  急功近利

  掘金“大数据”的绊脚石

  好莱坞电影《点球成金》(Moneyball),在美国掀起了一阵数据挖掘热,就连默默无名的数据分析师的工作也成为了影迷们好奇的焦点。

  比利·比恩(Billy Beane)是美国奥克兰运动家棒球队的总经理,这支棒球队在竞争激烈的美国职业棒球联盟里只是“下三流”的,然而,在耶鲁大学数据分析高材生胖子彼得的帮助下,比恩经过分析数据和晦涩难解的棒球统计学,找到了一批在棒球运动某方面具备超强能力、但却被价值低估的棒球手,最终以突破传统的数据经营模式,取得骄人的比赛成绩,甚至达到了比肩实力雄厚的纽约扬基队的程度。

  美国麻省理工学院斯隆管理学院经济学教授埃里克·布吕诺尔夫松曾把“大数据”的潜在影响力比喻成“显微镜式的一场数据测量革命”。

  不过,大数据到底能给企业带来什么价值呢?本质上说,大数据本身没有太多价值,基于大数据的处理和分析才能为企业带来巨大的增量价值。

  海比科技公司总经理、中国软件网总编辑曹开彬认为,大数据里面包含企业运营的各种信息,如果能对它们进行及时有效充分地整理和分析,才可以很好地、迅速地帮助企业进行业务决策,响应客户需求,提升竞争力。

  Teradata天睿公司大中华区首席执行官辛儿伦认为,随着大数据时代的到来,企业应该在内部培养三种能力:第一,整合企业数据的能力;第二,探索数据背后价值和制定精确行动纲领的能力;第三,进行精确快速实时行动的能力。Teradata天睿公司是一家智能分析解决方案厂商,主要为企业和政府机构做数据整合、分析,探索、挖掘数据背后的价值,从而提高客户生产的竞争力。

  数据分析和挖掘的前提,长时间的用户积累,收集、维护数据,聚沙成塔、集腋成裘。国内较早从事数据挖掘的国双科技副总裁续扬认为,在这个过程中,长期记录用户的社会属性、行为规律和互动特征等要素,在此基础上,进而深入分析并探索有效的广告传播渠道和模式。

  在谢文看来,即便是谷歌,直到Google+诞生前,它也不能声称自己是个大数据公司。

  “它的海量搜索数据虽然规模庞大,但结构简单。尽管听说它的搜索算法已经囊括了六万多个变量,成千上万的数学和统计学模型,上千的博士和工程师参与分析,但在数据挖掘深度、搜索结果个人化、搜索结果与广告之间的相关度上进展有限,只有改良,没有突破。更严重的是,谷歌数百个产品和服务之间相互关联度极低,各干各的,无数数据库互不相干。各个部门之间以邻为壑,互不配合,更不整合。”谢文认为,大数据与否取决于数据规模,结构复杂性和关联性,换句话说某个公司的数据量大并不等于说这个公司具备拥有和利用大数据的前景。

  比如眼下热门的微博数据挖掘,事实上还处在相当早期的投入阶段。

  国内目前最大的微博平台新浪微博,正试图将微博平台做更多的商业化尝试:积极通过社交兴趣图谱将品牌内容推荐给可能感兴趣的用户,利用广告对应的应用页面吸引粉丝互动,激励用户分享创造口碑效应;建立和完善微博的基础设施,如微博信用系统、微博支付系统、微博数据挖掘系统,推进商业化进程;推出商业开放平台,在技术和接口层面为开发者提供支持,共同打造服务企业的App Store(应用商店),创建利益分享机制。

  但是,也有分析认为,即便坐拥大量数据信息,但新浪微博现在要产生商业价值,还为时尚早,所面临的问题比如:新浪的后台技术能力相对偏弱,微博客户的复杂性和数据分析差异化需要新浪花更多时间、精力去进行摸索。同时,由于社会化媒体广告是相对较新的领域,国内专业人才相对匮乏。

  在徐子沛看来,可能阻碍国内数据分析、挖掘领域健康发展的,是当下急功近利的心态:客户急于通过数据挖掘对销售产生立竿见影的拉动效果;数据挖掘公司耐不住寂寞做一些比如建模等基础性的工作,难得静下心来在数据挖掘工具上开发、创新;投资机构希望在3~5年内见到投资成效等等。

  已经做了三年时间数据挖掘的缔元信公司,其CEO秦雯曾表示,作为一个数据公司,从哪个角度,用什么方法挖掘大数据的价值,体现行业应用价值,他们一直还在摸索中。

  近期,阿里巴巴频频表态启动大数据布局,并将其提升至战略高度。

  大家伙出没

  大数据是大公司的垄断?

  微软最近的一次小动作,引起了舆论的关注。它在最新IE10浏览器中,默认开启“禁止追踪”功能。

  “禁止追踪”(简称DNT)能够防止第三方网站跟踪用户活动。接受“禁止追踪”协议的网站不可以追踪用户活动,就像电话推销员不可以向登记过“禁止推销”的人推销一样。能够了解到用户的去处和行为令很多用户和隐私保护倡导者担忧,但广告商却可以利用这些信息决定以什么样的方式在哪里定点展示其广告。

  微软这个简单而且看似微不足道的修改,被认为“表面上是有利于用户隐私保护,实际上是垄断用户数据”,甚至认为“可能会对最基本的网络商业环境造成非常大的影响甚至是灭顶之灾”。

 海量数据存储方案 拷问大数据 从「海量」到「可用」有多远
  一个很自然的问题是,拥有大数据的公司会不会形成垄断?挤压其他中小企业的生存面包?

  在《大数据》一书中,徐子沛列举过不少案例,在他看来,大企业的数据垄断不符合数据开放潮流,因为数据只有开放使用,才可以有更大的效率。大数据其实是鼓励数据开放,竞争也是数据开放下的竞争。数据开放就会自然而然地衍生多样性。

  秒针创始人兼CTO吴明辉将互联网上的数据分为两种:第一种是可以公开获取的数据。例如新闻、微博、博客上的每一篇文章,京东和当当上的商品信息,这些数据不会被垄断,因为这些数据必须对普通消费者开放,即使大公司因为某些原因禁止蜘蛛的抓取,本质上也无法禁止每一个消费者获取这些数据,这些数据抓取公司可以通过在上百万个普通消费者的电脑上安装爬虫,分散抓取的方式来获得这些数据。第二种是用户行为数据。例如哪一个用户访问过哪个内容,这种数据并不是对外公开的,也无从抓取,这些数据只能被大的平台性公司所垄断。

  “但所有数据的利用都是需要符合商业利益本身的,如果一个小公司能够充分利用大公司私有数据,为大公司服务,那么大公司也会愿意共享一些数据出来。”80后的吴明辉志向远大。

  百分点创始人苏萌同样认为,真正构成壁垒的并非大数据本身,而是大数据价值挖掘的技术能力和大数据应用的商业能力。“未来大数据的方向会在整合结构化与非结构化的数据、标准化与非标准化的数据、单渠道与跨渠道的数据三个方面。”

  谢文从另一个视角对记者分析,“在现有情况下,谁有可能拥有比较多的数据,能够产生一些大数据时代初级的应用、发展和机会?显然大公司有优势。但真正的挑战不在于数据多少,而在于你是用什么崭新的方法、思路、工具去分析数据。比如Facebook出现的时候还没有用户,而那时雅虎却有几十亿用户了,Facebook为什么取而代之?因为它用了一个新的思路,更符合现在的发展潮流。”

  对于已经坐拥海量用户、用户数据的互联网大公司,自然不愿错失“大数据”时代的机会。近期,腾讯、阿里巴巴等互联网公司频频表态启动大数据布局,并将其提升至战略高度。

  阿里集团刚刚设立首席数据官岗位(CDO),负责推进“数据分享平台”战略。同时,阿里还发布“聚石塔”平台,为天猫、淘宝平台上的电商及电商服务商等提供数据云服务。

  此前,腾讯也发布了面向营销的大数据战略,称将调动腾讯7亿活跃账户数据去服务门户,来打造基于用户社交关系链的“下一代腾讯网”。

  天猫总裁逍遥子表示,聚石塔的推出,通过开放的电商云工作平台将整合电商生态系统的全链路数据,帮助商家提高运营管理效率、降低成本,从“繁”电商转变为“易”电商,以更轻盈的姿态最终为消费者提供更确定性的服务。

  “这是一个连续的过程,突变还没有发生。”谢文告诉记者,“现在大家还是用历史上积累的数据、方法、工具,实际上中国互联网公司对数据是不会投资,也不会用的。在互联网领域,应该说搜索是最依赖数据的,其次是电子商务,至于做新闻或做垂直服务的,基本上不太在乎。”

  其实纵观全球互联网领域,包括欧美的数据挖掘工作也并没有完全发展起来。美国著名社交游戏公司Zynga在一次采访中说,他们的游戏用户数据还没有很好地利用起来,这些数据如果充分利用起来,未来可以获得更多的数据。

  吴明辉认为,Big Data未来是一定可以帮助企业拉动销售的,在Big Data到Useful Data的演进过程中首先需要解决的是Visible Data,也就是可视化呈现的Data,需要通过一些分析系统和报表系统帮助企业在Big Data中发现问题,然后才是解决。可能有时候发现了问题不能简单通过Data去解决,而是需要通过改变整个运营系统才能把销售或运营效率提高起来,发现问题是第一步,但解决问题更难。

  在数据分析里有个词叫“数据清晰”,意思是有很多数据是过时的,没有及时更新的,不但没有价值,反而会破坏数据的精细度。看来,Big Data 到Useful Data,还有很长的路要走。

  

爱华网本文地址 » http://www.413yy.cn/a/9101032201/56528.html

更多阅读

怀孕16周肚子有多大及准爸妈指南 怀孕4个月肚子有多大

阿友老师首先恭喜您怀孕16周了,这周宝宝特别快乐,他能够做出各种各样的动作,嘬拇指、伸脚、眯眼、甚至会翻跟头,而且令人激动的是,你可以听到第一次胎动了,这会让你直观感受到宝宝的存在。宝宝发育迅速,你很容易贫血,补充好营养,和宝宝一起成

数学日记:《1亿有多大?》

数学日记:《1亿有多大?》A:1亿有多大?1亿,是一个非常大的数,但我们从没有感受过它到底有 多大。今天,我就来探究一下,1亿本数学书叠起来到底有多高?我先量出一本数学书的厚度,是8毫米。那么数量厚度18毫米108厘米1008分米10008米100

云端数据 大数据 从云端到凡间——方之熙的一天

系列专题:大数据营销     2013年11月29日15:07,在北京海淀区中国英特尔物联技术研究院里,院长方之熙正在和同事们研究一项时下颇热门的大数据应用,如何低成本地测量PM2.5。  测量仪器中的的传感器通过Wi-Fi、3G等网络将环境实时

声明:《海量数据存储方案 拷问大数据 从「海量」到「可用」有多远》为网友秋风叶未落分享!如侵犯到您的合法权益请联系我们删除