老虎伍兹的老婆 Kaggle寻找数据科学界的老虎伍兹
让电脑对一份论文打分,能给出可靠的分数吗?通过分析一个人在Twitter等社交媒体上的社交信息,就能探测出他(她)的个性特征以及患精神病的危险程度吗?这些看似疯狂的想法,都是一家名叫Kaggle的在线网站曾举行过的比赛项目。 这是一家位于美国旧金山的初创企业,一个拥有近11万名数据科学家的在线社区,一个大数据分析的众包平台,在2010年启动,2011年11月获得了1100万美元的风险投资。 与Kaggle合作的公司或机构,提交一些相关数据到Kaggle平台,进而提出一个问题,Kaggle网站上来自世界各地的计算机科学家和数学家,也就是现在所说的数据科学家,将领取任务,通过竞赛产生最好的模型并获得大奖(奖金由那些需要情报的公司提供),而且有机会提供咨询服务,而与Kaggle合作的公司或机构将最终拥有数据分析的结果、模型等知识产权。 换句话说,Kaggle在数据问题和数据解决方案架起了一座桥梁。Kaggle对于参赛的数据科学家是免费的,它在组织这些竞赛时会向企业收取费用。 到目前为止Kaggle已经做出了许多突破性成功,包括帮助改进了微软Kinect体感产品。 在Anthony Goldbloom看来,Kaggle上举行的竞赛,就像是职业高尔夫球巡回赛,他们试图借此找到数据科学世界里面的伍兹(Tiger Woods)。今年29岁的Anthony是Kaggle的联合创始人兼CEO。 Kaggle成功的关键就是它的社区:近11万名在线的数据科学家。这也是目前世界上最大的数据科学家社区。它是怎样吸引到第一批用户的?在Anthony看来,数据科学竞赛是“吸引最聪明的,最奇怪和最有创意的数据科学家的非常有效的方式”。Kaggle早期是通过机器学习竞赛来吸引用户。早期的比赛项目比如基于悉尼的历史交通数据来建立一个算法,来预测在悉尼的旅行时间等。 Kaggle目前的用户主要分布在北美,澳大利亚和东欧。“我们通过与腾讯的合作,得到了一个来自中国的‘招生大户’。” Anthony说。Kaggle与腾讯的合作,帮助后者解决了两个问题,帮助腾讯建立了一套预测腾讯不同广告的点击率效果的算法,以及给腾讯微博建立了一种“关注”算法。 在Kaggle的客户名单上,GE、微软、Facebook、Tesco、福特等赫然在列,甚至包括NASA(美国宇航局),当然它也服务规模较小的企业,帮助客户解决所有的数据科学问题,例如提高销售预测,客户细分,留住客户,优化定价等等。 Kaggle并不是以众包方式专注于大数据分析领域的唯一一家创业公司,类似的还有CrowdAnalytix,TunedIT等。Kaggle的优势是什么? “超过10万名的数据科学家在线,而且极其活跃,Kaggle已经形成具有流动性的数据科学人才的市场。 TunedIT和CrowdAnaltix没有太多的数据科学家,也不是一个活跃的社区。”Anthony这样回答。 Kaggle还投资于基础设施建设,藉此能够向企业或机构客户提供安全的数据托管服务,据Anthony介绍,这种服务也是大部分客户所要求的。 事实上,Kaggle还有一个创新之处,即该公司的新服务Kaggle Connect。通过该服务,Kaggle可以对接这样的“供需”:有特殊要求的企业或机构客户,可以聘请到最适合解决这个问题、具有特殊技能的数据科学家。Anthony称他们是数据科学家里的“精英”,在Kaggle网站上排名前1%的一半,相当于大约500名数据科学家。 Kaggle是如何发现这些大数据分析领域的精英的?Anthony说,通过他们在科学竞赛中的表现,以及通过“竞赛”积累积分在Kaggle上获得的排名。据悉,Kaggle的排名榜,在专业人士圈内有很大影响力,也成为该领域人员技术水平高低的公认标杆。 如此看来,Kaggle不仅仅是一个大数据分析的众包平台,而是创造了一个全新的劳动力市场和评价体系。对于那些希望利用大数据分析改进业务的企业来说,Kaggle的大数据分析的众包模式,正好解决了两大难题:人才和想法。 这已经是趋势性的需求:一方面,随着数据量的爆炸性增长,尤其是互联网企业掌握的数据越来越多,如何利用这些数据成为了决策者们所关心的问题。另一方面,数据科学家成为了当下以及未来最稀缺的资源。根据McKinsey的预测,在未来6年,仅在美国本土就可能面临14万至19万具备深入分析数据能力人才的缺口,同时还有150万数据管理人员和分析师的缺口,他们能通过分析大数据为企业做出有效的决策。 市场如此之大,像Kaggle这样的初创企业面临的最大挑战是什么?“如何教育客户,让他们敏锐地意识到转型的数据科学的价值。”Anthony说。Kaggle团队的愿景是,希望帮助每个行业中每家公司,每家公司中的每个部门,实现数据科学的力量。
未来的世界是大数据的世界,所有的人都预测在这个领域内将来会产生一批伟大的公司。Kaggle会是其中之一吗?
更多阅读
什么是硬盘的转速?什么是硬盘的缓存?什么是硬盘的最高内部传输 硬盘 转速 缓存
什么是硬盘的转速问:什么是硬盘的转速?答:转速是指硬盘内电机主轴的转动速度,单位是RPM(每分钟旋转次数)。其转速越高,内部传输速率就越高。目前一般的硬盘转速为5400转/分和7200转/分,最高的转速则可达到10000转/分以上。我们可以这样理解:
大数据时代读后感 ‘数治‘时代,叫醒你的数据
“在数据中畅游”自然是好的,但在数据采掘领域,应被称为“数据疏浚”,即你可能获得一个在统计学上显著的数据,从而解读出商业内涵。一个更完整的定义应该如下:拥有健康的好奇心、精通数据操纵和统计以及足够的领域知识,来获得正
数据库灾难恢复 直面RAID数据灾难
服务器已经成为企业信息化的核心,然而受到备份成本投入限制与管理措施限制,各种令人不堪回首的RAID数据灾难总是不期而至。一旦不幸遭遇服务器崩溃事件,整个企业将很容易陷入被动局面,而此时数据恢复就成为唯一的救命稻草。不过寻找
品牌经理:1+1>2的魔术师
---科特勒营销集团(KMG)总裁米尔勒·科特勒先生前不久在专为中国营销精英举办的培训班上,为中国企业提出了五条营销指导原则,其中第一条就是:将营销战略集中于创造品牌价值。顾客选择产品越来越注重品牌,同时,顾客的口味越来越多样化,单一
房地产营销的生命线
记得曾有这样的一种分类:推销“一种商品”,这是初级的销售;推销客户“需要的商品”,这是高级的销售,也是营销的开始;推销客户“喜爱的商品”,这是真正的营销。作为特殊商品的房地产销售,这样的理解可能更具有深层次的意义。 从房