测量显微镜 一场显微镜式的数据测量革命



     不可否认,大数据的爆发正在改变企业的传统商业模式。几乎在所有的领域,基于数据挖掘的业务方兴未艾,第三方数据开发的基础建设平台异军突起。

  从目前学界的研究进展,以及业界的实践效果来看,无论是算法还是系统,都只能解决局部问题,尚未解决的问题很多,面临的挑战很大。

  但是即便利用现有的技术,人类仍然解决了像搜索引擎这样的艰巨任务,并且赢得了巨额的商业收益。

  总结一下,大数据面临三大问题:寻找价值、扩大来源、完善技术。解决这三个问题中的任何一个,都有很大挑战。而从目前来看,扩大数据的来源,是最紧迫的问题。

  奥运“消极比赛”背后

  数据可用来打假?

  伦敦奥运会羽毛球女子双打比赛,中国女双组合“于洋、王晓理”对阵韩国“郑景银、金荷娜”,韩国女双组合“河贞恩、金旼贞”对阵印尼“波莉、乔哈里”。

  这四对组合不约而同地选择了消极比赛,不求赢,但求输。原因很简单,因为如果她们赢了,在后续的淘汰赛中,就会遭遇本国队友,自相残杀。所以,为了在后续淘汰赛的分组中避免与本国队友分在同一小组,这四对女双组合,都不约而同地选择了消极比赛。

  结果,她们被取消了参赛资格。

  对于这个严厉的处罚,国际羽联的解释是:“她们没有尽全力去赢得比赛,这样的行为明显有害于羽毛球运动”。

  造成8名运动员不约而同地消极比赛的原因,是比赛规则的不合理:要求运动员每场比赛,都必须“尽全力去赢得比赛”,否则就将被取消参赛资格,即便这个理想主义的准则,在现实比赛中,客观上难以遵守。

  这个判断,仅仅是我们的臆测,还是客观事实?我们拿数据说话。

  在《魔鬼经济学》(Freakonomics)一书中,作者分析过日本国粹——相扑比赛中的猫腻。

  日本职业相扑分6段,最高段是“幕内”,共有42个席位,次等“十两”,共有28个席位。相扑大赛每年举办6场,分别在6个不同城市举办。每次大赛连续比赛15天。“幕内”和“十两”这两个最高段位的运动员,每天都要比赛,所以共参赛15场。

  每次大赛的15场比赛的输赢次数,将决定相扑运动员段位的升降。假如在前14场比赛中,一名运动员的输赢次数是7-7,那么最后一场比赛,就成为生死之战。反之,如果在前14场比赛中,另一名运动员的成绩是8-6,或者9-5,那么最后一场比赛的成绩,对他的段位没有影响。另外,假如一名运动员的胜局次数超过10场,他就有可能获得额外的奖励。

  假如在第15场比赛中,对阵的两名运动员分别是(A1、B1),A1在先前14场比赛中的输赢次数是7-7,而B1是8-6。那么B1会不会故意放水,消极比赛呢?

  《魔鬼经济学》一书的作者,统计了从1989年到2000年历次比赛的记录。他先查看每次相扑大赛的第15天的比赛日程,得到一个参赛者名单{(A1,B1),(A2,B2),……}。在这个名单中,他挑选出7-7运动员对阵8-6运动员的那几个组合。例如A1在先前14天中的比赛成绩是7-7,并且B1的成绩是8-6,那么(A1,B1)组合就被选中。而A2在先前14天中的比赛成绩是10-4,那么就把(A2,B2)组合删除掉。

  对于某个组合,例如(A1,B1),如何预测A1战胜B1的概率?一个简单有效的办法,是统计在以往的比赛中,A1对阵B1的输赢次数。以往的比赛,不仅包括这次大赛的前14天的比赛,而且包括以往的历次大赛。

  假如类似于(A1,B1)这样的组合还有(A5,B5)、(A9,B9)、(A17,B17)等,我们可以按照相同的办法,预测出每对组合中,Ai战胜Bi的概率。按照这个办法,《魔鬼经济学》的作者统计了Ai们战胜Bi们的平均概率。

  这个概率是 48.7%。这个数字是合理的,它说明7-7运动员的实力的确比8-6运动员稍弱,但是差距不大。

  但比赛的实际结果,完全违背了我们的预测。Ai们战胜Bi们的概率,不是48.7%,而是79.6%!

  相似的戏剧性也出现在7-7运动员对阵9-5运动员的情景中。

  根据以往的比赛成绩,7-7运动员击败9-5运动员的平均概率是47.2%。但实际比赛结果显示,7-7战胜9-5的赢面,高达73.4%!

  如何解释这种戏剧性的差距?有一种解释是,第15场比赛,对于一名7-7运动员来说,是背水一战,决定了他的段位的升降,高昂的斗志促使他超常发挥。而对于8-6和9-5运动员而言,比赛输赢没有任何影响,所以他们普遍缺乏斗志。

  真是这样吗?

  每次大赛结束后,参赛运动员们休息两个月,然后移师另一个城市,迎接另一次大赛。假如在另一个城市的另一次大赛中,Ai再度遭遇Bi,Ai的胜率是多少呢?

  照理说,这时双方的压力都暂时减缓,应该回归到正常的水平,换句话说,Ai战胜Bi的概率,应该回归到正常水平——48.7%。

  但是统计结果,却只有40%左右,比48.7%的期望值明显低了许多!

  如何解释这个现象?《魔鬼经济学》的作者提醒我们,“幕内”共有42个席位,“十两”共有28个席位,全部加起来只不过70个参赛选手。这70个选手之间的关系,错综复杂,他们背后的教练之间的关系,更是剪不断理还乱。

  他们之间会不会有默契,前一场你放水,后一场我回报?会不会有人幕后操纵比赛?

  还是用数据说话。在随后的Ai第二次对阵Bi时,Ai胜出的概率又神奇地回归到了正常水平——48.7%!

  Ai战胜Bi的概率,从正常的48.7%到关键局雄起的79.6%,到后续再度交锋时萎靡的40%,再到第二次相遇时回归正常的48.7%,这个戏剧性的大起大落,是否印证了“前一场你放水,后一场我回报”的猜测?

  更蹊跷的是,曾经有两位相扑运动员,打算向外国媒体披露日本相扑黑幕。就在他们国际记者招待会开始前几个小时,他们双双神秘死亡,连病症都相同。随后日本警方宣布调查结果,没有发现他杀证据!

  美国麻省理工学院斯隆管理学院经济学教授埃里克·布吕诺尔夫松曾把“大数据”的潜在影响力比喻成“显微镜式的一场数据测量革命”。

  从医院到汽车的数据体验

  大数据的商业机会

  有人会问,数据挖掘除了打假以外,有没有更有商业价值的应用?有,而且很多。先说说看病的事儿。

 测量显微镜 一场显微镜式的数据测量革命
  经常会有病人,去多家医院就诊。因为相同的症状,不同的医生有不同的诊断。兼听则明,但是究竟该听谁的?

  有人建议,让病友分享就诊经验。多个病友,相同的症状,他们在不同的医院就诊,很可能得到不同的诊断和治疗方案。这样日积月累,我们就可以建立起一个医疗案例库。

  与医学院的案例研究不同,这个案例库是公开的,不仅医生可以看,而且病人也可以交流。虽然医学非常复杂,但是为了自己的健康甚至生命,病友会不惜余力地收集信息,相互交流。病友之间的交流,不一定会对医学的发展有多大直接的裨益,但是至少可以减少误诊,提高疗效。

  有人质疑说,这侵犯了病人的隐私。假如病人自愿呢?假如病人用马甲替代自己真名实姓呢?

  即便我们不能得到所有病人的病例,但是从志愿者那里,我们可以获得一部分案例。积少成多,开放的医疗案例库,将日益丰富。

  听起来很美,但是真正实施,难度很大。

  假如病人把病历公开了,发现有误诊,医院面对的诉讼会不会增多?假如发现乱开药,医院面对的索赔会不会增多?

  推而广之,不对称的信息,导致消费者承担额外的成本,这成本甚至包括生命。

  有人说,医疗系统积弊太多,一时半会儿解决不了。我们捡一个容易点的领域切入吧,譬如汽车。

  当代市场上每一辆车,基本都包含1000多个传感器,这些传感器检测引擎气缸的气压、燃料的燃烧值、尾气含量等。并且,这些传感器与汽车数据总线相连,所有的数据都可以通过标准接口,很方便地被读出。

  这些传感器采集的数据,与病人去医院诊断病情时的血样分析、便样分析、甚至CT照片很类似。假如我们为每一辆车建立一个病历,把车辆数据录入到病历里。这样,每辆车历年的健康状态和维修记录,都有据可查。这样,不仅有利于车辆的保养维护,而且可以大大降低因为车辆故障而导致的车祸数量。

  这个办法的好处,显而易见。但是各个车厂,为了自身利益,不愿意公布这些数据的格式。也就是说,即便用户可以读到这些数据,但是他无法理解这些数据的意义。只有去指定的4S店,只有用车厂特制的设备,才能正确读解这些数据。

  为了拆除这个壁垒,有效的办法是通过立法,强制各个车厂遵循统一的数据格式标准。

  事实上,从20世纪90年代开始,欧、美、日就陆续立法,规定了汽车数据的标准格式,这套标准被称为 OBD(On-Board Diagnosis)。

  又假如,我们把每一辆车的这些数据,通过无线通信,实时收集到网上。这样,无论何时何处,只要这车一启动,我们就可以实时地检测它的健康状况。更重要的是,消费者们可以方便地读到这些数据。

  消费者可以自愿公开这些数据。通过与其他车友或者专家交流,大大消弭与4S店之间的信息不对称。这样,4S店蒙骗消费者,以次充好乱收费的现象将会大大降低。

  大数据已经异常火热,一方面是热闹的有关大数据价值的研讨会一场接一场;一方面是各类公司对外宣布进军大数据领域的决心。

  从互联网到物联网

  拷问数据源

  在互联网,一般通过用户上传,获得大量数据。而在物联网,则通过传感器自动上传数据。但是物联网面临的挑战是,传感器被少数企业或者机构掌握,这些企业和机构为维护自身利益,不愿意公开这些数据。有效的办法是通过立法,强制它们把属于公众的数据,还给公众。

  说说我们国内车联网的现状。

  国内市场的车辆,大多数没有安装OBD系统。询问相关部门,答复是安装OBD系统将增加车辆成本。

  比较一下车价,同品牌同款式的车,国外定价远比国内价格低。中国消费者付了更多的钱,但是却得到更少的功能和服务。这是为什么?回答是车辆的差价,主要是海关关税。

  询问海关,为什么要对进口车辆包括零部件课以重税?答复是保护民族产业。

  再多问一句,能不能从进口税中拨出一部分补贴OBD系统呢?

  物联网、车联网极大地扩大了数据来源,但是因为涉及到硬件制造,这些数据很容易被垄断。所以,大数据的数据来源,不仅仅是数据采集的问题,更是数据公开的问题。

  传感器、车联网、物联网,这个设想前景远大,但是困难重重。难度相对较小的数据来源,是互联网网站。

  薛蛮子几个月前在新浪微博上发帖询问“谁是北京治疗直肠癌的好医生?”应者云集。类似的询问很多,是否可以做一个专司找人的搜索引擎?

  实现方法是这样的,譬如说找北京直肠癌医生,我们通过搜索所有微博,找到谁的微博中,频繁出现与肠、癌相关的词汇。这样的人有两类,一类是医生,另一类是病友。

  如何区分这两类人呢?可以通过分析这些微博用户,他们与哪些人联系密切。医生经常与同行交流,所以在他们的好友中,医生的比例一定显著地高。而病友的好友,则分布广泛。

  实现这个找人搜索引擎,有个前提,必须获得大量微博内容,以及微博用户的人际网络。要获得这些信息,就必须得到新浪微博,或者腾讯、人人网这些社交网站的支持。

  因为涉及到新浪等企业的实际利益,让他们无偿公开这些信息,是有难度的。解决这个问题,要么通过立法,要么通过盈利分成。但是总体上来说,社交网站比车厂更愿意合作,原因是社交网站的运行成本,远比制造传感器的成本低。

  人工智能

  破解大数据处理“密码”

  假如我们有办法得到大数据,接下来的问题是如何使用数据挖掘技术,从大量散乱的数据中,提炼出有价值的信息。好消息是,我们目前已经拥有了不少数据挖掘技术,实践证明,这些技术对于某些问题是行之有效的。坏消息是,我们目前拥有的数据挖掘技术还相当不完善,有很多问题至今不能被很好地解决。

  以构建病因症状关系网络为例,譬如说前文提到的病情诊断。诊断靠推理,推理有两类。

  首先,如果观察到症状S1,而造成S1出现的病因,有可能是R1,也有可能是R2或者R3。所以,确定真正的病因,需要进一步收集更多的症状,例如S2、S3。如果造成S2出现的可能原因是R2和R4,而造成S3出现的可能原因是R3和R5。把所有症状S1、S2、S3,综合起来考虑,(R1,R2,R3)--> S1,(R2,R4)--> S2,(R3,R5)--> S3。可能性最大的原因必然是(R1,R2,R3)、(R2,R4)和(R3,R5)的交集,也就是R2。这是反绎推理(Abductive Reasoning)的过程。

  其次,如果反绎推理仍然不能确定什么是最可能的原因,那么就得尝试采用演绎推理(Deductive Reasoning)。先假定R2是真正的病因,由于R2必然导致S4症状的出现,接下去要做的事情是,确认S4是否真的出现,或者寻找S4肯定没有出现的证据。依此循环。

  但是让电脑自动实现这些推理过程,就必须预先构筑“病因”-->“症状”的关系网络。这个关系网络是一个有向图,图中的节点是病因或症状,而连接两个节点的边的长度,表示着病因与病因、病因与症状、症状与症状之间相关性的强弱。

  购置这个病因症状关系网络,有两个办法。一个办法是组织医生,像编写教科书那样,整理所有医学知识,用病因症状关系网络的数据格式,规范、严谨地重构所有医学知识。

  但是,这个办法不仅要耗费大量医生的时间和精力,而且对于病因与症状之间的因果关系,以及病因与症状之间相关性的强弱,不同的医生有不同的理解,正因为如此,才会出现对于相同的症状,不同的医生会有不同的诊断。另外,随着时间的推移,医学知识在不断积累,不断更新,这会给维护和更新医疗知识网络带来很大困难。

  另一个办法是让计算机自动整理各个网站上的相关网文。这些网文的作者是医生和病友,写作方式是人类自然语言。因此,让计算机自动整理医疗知识网络,技术难题在于自然语言的处理。

  自然语言处理的技术难题分为两类,一个是算法,一个是系统。算法要解决的问题,是如何理解一句话的含义。而系统要解决的问题,是如何快速地处理成千上万的网文。

  1941年,德国人造出了Z3,这是人类历史上第一台符合图灵机定义的、可编程的计算机。

  1946年,美国人造出了ENIAC,这是人类历史上第一台电子计算机。

  1956年,电子计算机尚未发育成熟,四位学者就已经高瞻远瞩地展开了人工智能的研究。这四位学者分别是John McCarthy、Marvin Minsky、Allen Newell和Herbert Simon,其中 McCarthy是斯坦福大学教授,Minsky是麻省理工学院教授,而Newell和Simon共同任教于卡内基-梅隆大学。

  人工智能的目标,是让计算机全面拥有人脑的能力。人工智能的研究,已经历了半个世纪,从目前的进展来看,一步到位、全面复制人脑功能,这个目标难以实现。科学家们的对策是细分目标、各个击破,是退而求其次、循序渐进。

  人工智能被细分为很多分支,例如语音识别、计算机视觉、自然语言处理、机器学习等。机器学习的目标,是模仿人类的思维能力,设计各式各样的算法,去解决分类、优化、推理和决策等问题,为语音识别、计算机视觉和自然语言处理等任务,提供技术手段。

  后来,机器学习又分化出数据挖掘,前者侧重于设计精巧的算法,而后者侧重于简单的算法,在海量数据中提炼有价值的信息。

  到了当下,数据挖掘这个名称,逐渐被大数据取代。原因或许是,在海量数据中提炼有价值的信息,不仅要靠算法,而且要靠系统,尤其是分布式系统,才能在短时间内处理海量数据。

  

爱华网本文地址 » http://www.413yy.cn/a/9101032201/55373.html

更多阅读

胎停妈妈:这一场没有硝烟的战斗

她们曾经孕育生命,却无法把宝宝带到人间。每个医院的妇产科走廊里,都曾回荡着她们绝望的哭号;每个不孕不育医院都能看到她们憔悴的面孔。无助、绝望、哀伤、焦虑、悔恨,当求医问药无效后,她们甚至祈求观音菩萨的保佑……她们就是这样一群

忽然下的一场雪飘的那么纯洁 纯洁的雪

这个冬季风多了一些  吹痛了我想被爱遗忘的一切  而我却躲不过心痛的感觉  痛的 无力去改变 我不想被回忆吞噬 我挣扎着去怎么也挣脱不了  谁了解 曾经在我的世界 我的爱 像雪一样纯洁但是突然有一天我纯净的爱闯进了一个

声明:《测量显微镜 一场显微镜式的数据测量革命》为网友偶萿恠分享!如侵犯到您的合法权益请联系我们删除