测量显微镜一场显微镜式的数据测量革命-爱华网

不可否认，大数据的爆发正在改变企业的传统商业模式。几乎在所有的领域，基于数据挖掘的业务方兴未艾，第三方数据开发的基础建设平台异军突起。

　　从目前学界的研究进展，以及业界的实践效果来看，无论是算法还是系统，都只能解决局部问题，尚未解决的问题很多，面临的挑战很大。

　　但是即便利用现有的技术，人类仍然解决了像搜索引擎这样的艰巨任务，并且赢得了巨额的商业收益。

　　总结一下，大数据面临三大问题：寻找价值、扩大来源、完善技术。解决这三个问题中的任何一个，都有很大挑战。而从目前来看，扩大数据的来源，是最紧迫的问题。

　　奥运“消极比赛”背后

　　数据可用来打假？

　　伦敦奥运会羽毛球女子双打比赛，中国女双组合“于洋、王晓理”对阵韩国“郑景银、金荷娜”，韩国女双组合“河贞恩、金旼贞”对阵印尼“波莉、乔哈里”。

　　这四对组合不约而同地选择了消极比赛，不求赢，但求输。原因很简单，因为如果她们赢了，在后续的淘汰赛中，就会遭遇本国队友，自相残杀。所以，为了在后续淘汰赛的分组中避免与本国队友分在同一小组，这四对女双组合，都不约而同地选择了消极比赛。

　　结果，她们被取消了参赛资格。

　　对于这个严厉的处罚，国际羽联的解释是：“她们没有尽全力去赢得比赛，这样的行为明显有害于羽毛球运动”。

　　造成8名运动员不约而同地消极比赛的原因，是比赛规则的不合理：要求运动员每场比赛，都必须“尽全力去赢得比赛”，否则就将被取消参赛资格，即便这个理想主义的准则，在现实比赛中，客观上难以遵守。

　　这个判断，仅仅是我们的臆测，还是客观事实？我们拿数据说话。

　　在《魔鬼经济学》（Freakonomics）一书中，作者分析过日本国粹——相扑比赛中的猫腻。

　　日本职业相扑分6段，最高段是“幕内”，共有42个席位，次等“十两”，共有28个席位。相扑大赛每年举办6场，分别在6个不同城市举办。每次大赛连续比赛15天。“幕内”和“十两”这两个最高段位的运动员，每天都要比赛，所以共参赛15场。

　　每次大赛的15场比赛的输赢次数，将决定相扑运动员段位的升降。假如在前14场比赛中，一名运动员的输赢次数是7-7，那么最后一场比赛，就成为生死之战。反之，如果在前14场比赛中，另一名运动员的成绩是8-6，或者9-5，那么最后一场比赛的成绩，对他的段位没有影响。另外，假如一名运动员的胜局次数超过10场，他就有可能获得额外的奖励。

　　假如在第15场比赛中，对阵的两名运动员分别是（A1、B1），A1在先前14场比赛中的输赢次数是7-7，而B1是8-6。那么B1会不会故意放水，消极比赛呢？

　　《魔鬼经济学》一书的作者，统计了从1989年到2000年历次比赛的记录。他先查看每次相扑大赛的第15天的比赛日程，得到一个参赛者名单{（A1，B1），（A2，B2），……}。在这个名单中，他挑选出7-7运动员对阵8-6运动员的那几个组合。例如A1在先前14天中的比赛成绩是7-7，并且B1的成绩是8-6，那么（A1，B1）组合就被选中。而A2在先前14天中的比赛成绩是10-4，那么就把（A2，B2）组合删除掉。

　　对于某个组合，例如（A1，B1），如何预测A1战胜B1的概率？一个简单有效的办法，是统计在以往的比赛中，A1对阵B1的输赢次数。以往的比赛，不仅包括这次大赛的前14天的比赛，而且包括以往的历次大赛。

　　假如类似于（A1，B1）这样的组合还有（A5，B5）、（A9，B9）、（A17，B17）等，我们可以按照相同的办法，预测出每对组合中，Ai战胜Bi的概率。按照这个办法，《魔鬼经济学》的作者统计了Ai们战胜Bi们的平均概率。

　　这个概率是 48.7%。这个数字是合理的，它说明7-7运动员的实力的确比8-6运动员稍弱，但是差距不大。

　　但比赛的实际结果，完全违背了我们的预测。Ai们战胜Bi们的概率，不是48.7%，而是79.6%！

　　相似的戏剧性也出现在7-7运动员对阵9-5运动员的情景中。

　　根据以往的比赛成绩，7-7运动员击败9-5运动员的平均概率是47.2%。但实际比赛结果显示，7-7战胜9-5的赢面，高达73.4%！

　　如何解释这种戏剧性的差距？有一种解释是，第15场比赛，对于一名7-7运动员来说，是背水一战，决定了他的段位的升降，高昂的斗志促使他超常发挥。而对于8-6和9-5运动员而言，比赛输赢没有任何影响，所以他们普遍缺乏斗志。

　　真是这样吗？

　　每次大赛结束后，参赛运动员们休息两个月，然后移师另一个城市，迎接另一次大赛。假如在另一个城市的另一次大赛中，Ai再度遭遇Bi，Ai的胜率是多少呢？

　　照理说，这时双方的压力都暂时减缓，应该回归到正常的水平，换句话说，Ai战胜Bi的概率，应该回归到正常水平——48.7%。

　　但是统计结果，却只有40%左右，比48.7%的期望值明显低了许多！

　　如何解释这个现象？《魔鬼经济学》的作者提醒我们，“幕内”共有42个席位，“十两”共有28个席位，全部加起来只不过70个参赛选手。这70个选手之间的关系，错综复杂，他们背后的教练之间的关系，更是剪不断理还乱。

　　他们之间会不会有默契，前一场你放水，后一场我回报？会不会有人幕后操纵比赛？

　　还是用数据说话。在随后的Ai第二次对阵Bi时，Ai胜出的概率又神奇地回归到了正常水平——48.7%！

　　Ai战胜Bi的概率，从正常的48.7%到关键局雄起的79.6%，到后续再度交锋时萎靡的40%，再到第二次相遇时回归正常的48.7%，这个戏剧性的大起大落，是否印证了“前一场你放水，后一场我回报”的猜测？

　　更蹊跷的是，曾经有两位相扑运动员，打算向外国媒体披露日本相扑黑幕。就在他们国际记者招待会开始前几个小时，他们双双神秘死亡，连病症都相同。随后日本警方宣布调查结果，没有发现他杀证据！

　　美国麻省理工学院斯隆管理学院经济学教授埃里克·布吕诺尔夫松曾把“大数据”的潜在影响力比喻成“显微镜式的一场数据测量革命”。

　　从医院到汽车的数据体验

　　大数据的商业机会

　　有人会问，数据挖掘除了打假以外，有没有更有商业价值的应用？有，而且很多。先说说看病的事儿。

　　经常会有病人，去多家医院就诊。因为相同的症状，不同的医生有不同的诊断。兼听则明，但是究竟该听谁的？

　　有人建议，让病友分享就诊经验。多个病友，相同的症状，他们在不同的医院就诊，很可能得到不同的诊断和治疗方案。这样日积月累，我们就可以建立起一个医疗案例库。

　　与医学院的案例研究不同，这个案例库是公开的，不仅医生可以看，而且病人也可以交流。虽然医学非常复杂，但是为了自己的健康甚至生命，病友会不惜余力地收集信息，相互交流。病友之间的交流，不一定会对医学的发展有多大直接的裨益，但是至少可以减少误诊，提高疗效。

　　有人质疑说，这侵犯了病人的隐私。假如病人自愿呢？假如病人用马甲替代自己真名实姓呢？

　　即便我们不能得到所有病人的病例，但是从志愿者那里，我们可以获得一部分案例。积少成多，开放的医疗案例库，将日益丰富。

　　听起来很美，但是真正实施，难度很大。

　　假如病人把病历公开了，发现有误诊，医院面对的诉讼会不会增多？假如发现乱开药，医院面对的索赔会不会增多？

　　推而广之，不对称的信息，导致消费者承担额外的成本，这成本甚至包括生命。

　　有人说，医疗系统积弊太多，一时半会儿解决不了。我们捡一个容易点的领域切入吧，譬如汽车。

　　当代市场上每一辆车，基本都包含1000多个传感器，这些传感器检测引擎气缸的气压、燃料的燃烧值、尾气含量等。并且，这些传感器与汽车数据总线相连，所有的数据都可以通过标准接口，很方便地被读出。

　　这些传感器采集的数据，与病人去医院诊断病情时的血样分析、便样分析、甚至CT照片很类似。假如我们为每一辆车建立一个病历，把车辆数据录入到病历里。这样，每辆车历年的健康状态和维修记录，都有据可查。这样，不仅有利于车辆的保养维护，而且可以大大降低因为车辆故障而导致的车祸数量。

　　这个办法的好处，显而易见。但是各个车厂，为了自身利益，不愿意公布这些数据的格式。也就是说，即便用户可以读到这些数据，但是他无法理解这些数据的意义。只有去指定的4S店，只有用车厂特制的设备，才能正确读解这些数据。

　　为了拆除这个壁垒，有效的办法是通过立法，强制各个车厂遵循统一的数据格式标准。

　　事实上，从20世纪90年代开始，欧、美、日就陆续立法，规定了汽车数据的标准格式，这套标准被称为 OBD（On-Board Diagnosis）。

　　又假如，我们把每一辆车的这些数据，通过无线通信，实时收集到网上。这样，无论何时何处，只要这车一启动，我们就可以实时地检测它的健康状况。更重要的是，消费者们可以方便地读到这些数据。

　　消费者可以自愿公开这些数据。通过与其他车友或者专家交流，大大消弭与4S店之间的信息不对称。这样，4S店蒙骗消费者，以次充好乱收费的现象将会大大降低。

　　大数据已经异常火热，一方面是热闹的有关大数据价值的研讨会一场接一场；一方面是各类公司对外宣布进军大数据领域的决心。

　　从互联网到物联网

　　拷问数据源

　　在互联网，一般通过用户上传，获得大量数据。而在物联网，则通过传感器自动上传数据。但是物联网面临的挑战是，传感器被少数企业或者机构掌握，这些企业和机构为维护自身利益，不愿意公开这些数据。有效的办法是通过立法，强制它们把属于公众的数据，还给公众。

　　说说我们国内车联网的现状。

　　国内市场的车辆，大多数没有安装OBD系统。询问相关部门，答复是安装OBD系统将增加车辆成本。

　　比较一下车价，同品牌同款式的车，国外定价远比国内价格低。中国消费者付了更多的钱，但是却得到更少的功能和服务。这是为什么？回答是车辆的差价，主要是海关关税。

　　询问海关，为什么要对进口车辆包括零部件课以重税？答复是保护民族产业。

　　再多问一句，能不能从进口税中拨出一部分补贴OBD系统呢？

　　物联网、车联网极大地扩大了数据来源，但是因为涉及到硬件制造，这些数据很容易被垄断。所以，大数据的数据来源，不仅仅是数据采集的问题，更是数据公开的问题。

　　传感器、车联网、物联网，这个设想前景远大，但是困难重重。难度相对较小的数据来源，是互联网网站。

　　薛蛮子几个月前在新浪微博上发帖询问“谁是北京治疗直肠癌的好医生？”应者云集。类似的询问很多，是否可以做一个专司找人的搜索引擎？

　　实现方法是这样的，譬如说找北京直肠癌医生，我们通过搜索所有微博，找到谁的微博中，频繁出现与肠、癌相关的词汇。这样的人有两类，一类是医生，另一类是病友。

　　如何区分这两类人呢？可以通过分析这些微博用户，他们与哪些人联系密切。医生经常与同行交流，所以在他们的好友中，医生的比例一定显著地高。而病友的好友，则分布广泛。

　　实现这个找人搜索引擎，有个前提，必须获得大量微博内容，以及微博用户的人际网络。要获得这些信息，就必须得到新浪微博，或者腾讯、人人网这些社交网站的支持。

　　因为涉及到新浪等企业的实际利益，让他们无偿公开这些信息，是有难度的。解决这个问题，要么通过立法，要么通过盈利分成。但是总体上来说，社交网站比车厂更愿意合作，原因是社交网站的运行成本，远比制造传感器的成本低。

　　人工智能

　　破解大数据处理“密码”

　　假如我们有办法得到大数据，接下来的问题是如何使用数据挖掘技术，从大量散乱的数据中，提炼出有价值的信息。好消息是，我们目前已经拥有了不少数据挖掘技术，实践证明，这些技术对于某些问题是行之有效的。坏消息是，我们目前拥有的数据挖掘技术还相当不完善，有很多问题至今不能被很好地解决。

　　以构建病因症状关系网络为例，譬如说前文提到的病情诊断。诊断靠推理，推理有两类。

　　首先，如果观察到症状S1，而造成S1出现的病因，有可能是R1，也有可能是R2或者R3。所以，确定真正的病因，需要进一步收集更多的症状，例如S2、S3。如果造成S2出现的可能原因是R2和R4，而造成S3出现的可能原因是R3和R5。把所有症状S1、S2、S3，综合起来考虑，（R1，R2，R3）--> S1，（R2，R4）--> S2，（R3，R5）--> S3。可能性最大的原因必然是（R1，R2，R3）、（R2，R4）和（R3，R5）的交集，也就是R2。这是反绎推理（Abductive Reasoning）的过程。

　　其次，如果反绎推理仍然不能确定什么是最可能的原因，那么就得尝试采用演绎推理（Deductive Reasoning）。先假定R2是真正的病因，由于R2必然导致S4症状的出现，接下去要做的事情是，确认S4是否真的出现，或者寻找S4肯定没有出现的证据。依此循环。

　　但是让电脑自动实现这些推理过程，就必须预先构筑“病因”-->“症状”的关系网络。这个关系网络是一个有向图，图中的节点是病因或症状，而连接两个节点的边的长度，表示着病因与病因、病因与症状、症状与症状之间相关性的强弱。

　　购置这个病因症状关系网络，有两个办法。一个办法是组织医生，像编写教科书那样，整理所有医学知识，用病因症状关系网络的数据格式，规范、严谨地重构所有医学知识。

　　但是，这个办法不仅要耗费大量医生的时间和精力，而且对于病因与症状之间的因果关系，以及病因与症状之间相关性的强弱，不同的医生有不同的理解，正因为如此，才会出现对于相同的症状，不同的医生会有不同的诊断。另外，随着时间的推移，医学知识在不断积累，不断更新，这会给维护和更新医疗知识网络带来很大困难。

　　另一个办法是让计算机自动整理各个网站上的相关网文。这些网文的作者是医生和病友，写作方式是人类自然语言。因此，让计算机自动整理医疗知识网络，技术难题在于自然语言的处理。

　　自然语言处理的技术难题分为两类，一个是算法，一个是系统。算法要解决的问题，是如何理解一句话的含义。而系统要解决的问题，是如何快速地处理成千上万的网文。

　　1941年，德国人造出了Z3，这是人类历史上第一台符合图灵机定义的、可编程的计算机。

　　1946年，美国人造出了ENIAC，这是人类历史上第一台电子计算机。

　　1956年，电子计算机尚未发育成熟，四位学者就已经高瞻远瞩地展开了人工智能的研究。这四位学者分别是John McCarthy、Marvin Minsky、Allen Newell和Herbert Simon，其中 McCarthy是斯坦福大学教授，Minsky是麻省理工学院教授，而Newell和Simon共同任教于卡内基-梅隆大学。

　　人工智能的目标，是让计算机全面拥有人脑的能力。人工智能的研究，已经历了半个世纪，从目前的进展来看，一步到位、全面复制人脑功能，这个目标难以实现。科学家们的对策是细分目标、各个击破，是退而求其次、循序渐进。

　　人工智能被细分为很多分支，例如语音识别、计算机视觉、自然语言处理、机器学习等。机器学习的目标，是模仿人类的思维能力，设计各式各样的算法，去解决分类、优化、推理和决策等问题，为语音识别、计算机视觉和自然语言处理等任务，提供技术手段。

　　后来，机器学习又分化出数据挖掘，前者侧重于设计精巧的算法，而后者侧重于简单的算法，在海量数据中提炼有价值的信息。

　　到了当下，数据挖掘这个名称，逐渐被大数据取代。原因或许是，在海量数据中提炼有价值的信息，不仅要靠算法，而且要靠系统，尤其是分布式系统，才能在短时间内处理海量数据。

奥林巴斯测量显微镜

爱华网本文地址 » http://www.413yy.cn/a/9101032201/55373.html

测量显微镜一场显微镜式的数据测量革命

更多阅读

胎停妈妈：这一场没有硝烟的战斗

转载一场来自大山的足球赛——华再东老师逐日之旅机器人足球赛

常林锋：一场火灾命案的两个版本(组图) 烟头牵出七年命案

忽然下的一场雪飘的那么纯洁纯洁的雪

墨色倾国八上演一场祭祀活人的球赛 - BJQIQI的日志 - 网易博 bjqiqi结婚

声明:《测量显微镜一场显微镜式的数据测量革命》为网友偶萿恠分享！如侵犯到您的合法权益请联系我们删除

更多阅读

胎停妈妈：这一场没有硝烟的战斗

转载 一场来自大山的足球赛——华再东老师逐日之旅 机器人足球赛

常林锋： 一场火灾命案的两个版本(组图) 烟头牵出七年命案

忽然下的一场雪飘的那么纯洁 纯洁的雪

墨色倾国八 上演一场祭祀活人的球赛 - BJQIQI的日志 - 网易博 bjqiqi结婚

声明:《测量显微镜 一场显微镜式的数据测量革命》为网友偶萿恠分享！如侵犯到您的合法权益请联系我们删除

转载一场来自大山的足球赛——华再东老师逐日之旅机器人足球赛

常林锋：一场火灾命案的两个版本(组图) 烟头牵出七年命案

忽然下的一场雪飘的那么纯洁纯洁的雪

墨色倾国八上演一场祭祀活人的球赛 - BJQIQI的日志 - 网易博 bjqiqi结婚

声明:《测量显微镜一场显微镜式的数据测量革命》为网友偶萿恠分享！如侵犯到您的合法权益请联系我们删除