大数据时代:大数据技术实施与运用大数据分析
在发展历程上,大数据与云计算很类似,开始都搞不清是什么概念,但有很多人在说,难免南辕北辙。一个非常有趣现象:会有很多人说大数据不是什么,但很少有人说是什么。但这都不妨碍大数据成为产业发展趋势。
当务之急是不纠缠于概念,直接关注有哪些应用可以落地,可以采用哪些大数据技术。
技术三分天下
传统数据处理技术以数据库技术为主,主要应用在联机事物处理(OLTP)的应用场合,后来的数据仓库、数据集市都是数据库技术的发展和延伸。数据库技术已经有30年的历史,可以将其概括为一句话“一种架构支持所有应用”。数据库技术以结构化数据为主,而结构化数据也是价值密度最高的数据。而半结构化数据、非结构化数据价值密度相对比较低,如果采用传统数据库技术处理这些数据,会被认为得不偿失。
大数据时代,以Hadoop为代表的NoSQL技术,以列式数据处理为代表的MPP NewSQL技术应运而生,为半结构化数据、非结构化数据提供了技术支撑基础,以互联网企业为代表,创造了各种新的商业模式,也开启了大数据应用的时代。
在大数据时代,对于分析类应用的需求不断增加,特别对于传统行业/企业,大数据分析需求首先包括结构化数据,这已经分析了30多年,如今结构化数据分析需要与各种半结构化数据、非结构化数据分析相结合,用全数据的视野,指导行业/企业的业务应用和实践。这就导致一种架构难以完全满足大数据的需求,“多种架构支持多类应用”就成为了大数据处理应用的基本思路,出现了OldSQL、NewSQL和NoSQL三分天下的市场格局。
混搭或将不可避免
大数据应用采用多种架构支撑不可避免。据中国移动业务支撑系统部高级工程师何鸿凌介绍,中国移动就采用了MPP和Hadoop混搭架构,配合原有数据仓系统,开展大数据的应用。其中,传统DW(数据仓库)做高价值数据,也就是结构化数据的加工,MPP做长期结构化数据的存储和自助分析,Hadoop用于非结构化数据处理、挖掘和历史存储。
何鸿凌表示,MPP是将传统分布式数据库的理论运行在X86上的实践,用列存、内存和副本等进行了优化。MPP基本可以替代传统DW,但在大数据时代,还是有挑战。那就是由于它精确地进行数据分布的原因,可扩展性和高可用比较难以达到。按照CAP理论,一种系统不可能什么都追求。因此国内较大的MPP集群也就几十个节点,国际上可以看到100~200节点的集群。根据中国移动数据处理得需求,起码也需要300~400个节点。
“大数据主要是要应用,而现在很多的应用都不是由IT开发的,是自助的,这就需要MPP中要提供沙盒,让业务部门或第三方能自助地分析和开发。我们当然不希望每个沙盒都是物理的MPP集群,这样不仅安装维护复杂,而且会造成数据重复。所以我们希望的是让MPP的能力像云计算那样对外提供按需服务,实现虚拟化。”他说。
谈到Hadoop,中国移动认为Hbase和HDFS很好,但Map/Reduce使用起来需要一些技术能力,Hadoop 2.0中Map/Reduce已经不再是唯一的执行框架,而缩减为Yarn框架下的一个应用了。对于Hadooperyan,其优势在于数据处理的成本,较之数据仓库内廉价很多,但在效率上还有差距,这是其数据分布策略所造成所的,这也是为什么中国移动还要选择MPP进行混搭因。
Hadoop技术难点主要是在Map/Reduce、各个作业之间都需要落地到HDFS上,这个效率会很差,而且没有全局优化。Spark解决了这些问题,包括用内存缓存、流水线和全局优化,因此中国移动用Spark作为处理引擎。据了解,中国移动准备将长期数据放到Hadoop上做自助查询,既能缩小MPP的规模,也能降低成本,当然这样的查询效率就不如在MPP上了。
大数据应用落地情况
混搭也好,多种模式也好,运用这些框架和技术手段的大数据应用,究竟会对现有模式产生哪些影响呢?大数据应用又是怎么样落地接地气的呢?也许中国移动的大数据应用实践会给我们一些启示。
总结来看,中国移动大数据应用有三个方面:一是让中国移动现有商业模式更加有竞争力;二是发掘新的商业模式,让别的行业运转更顺畅;三是承担社会责任发挥大数据社会价值。
实际上,在大数据被热炒之前,中国移动DW/BI系统运转已经有十多年时间,主要用于客户洞察、市场营销、客户服务和运营管理四个方面。大数据应用,非结构化数据的引入,让这些应用更加深入。以客户洞察为例,多种类型的数据(如消费、通话、位置、浏览、使用)等数据,借助各种算法(如分类、聚类、标签、RFM、Pagerank),通过分析就形成了360度的客户视图,就是利用各种联系记录形成社交网络,发现客户的各种圈子,通过分析影响力,寻找关键人员,识别家庭和政企客户,用来发现重入网客户,发现关键客户的异动情况。
2013年中国移动销售了1.5亿部终端,让TD-SCDMA芯片跻身主流行列。2014年,中国移动的目标是2.3亿部,导致各个公司压力都很大。要完成这样一个目标,一般来说有几种方法,最霸道的就是贴营销成本了,可谓无往而不利。但这种霸道的做法随着中国移动利润率的下降,越来越不被采用,而大数据营销开始被倚重,方法是分析用户的终端偏好和消费能力,捉住终端机生命周期到期、合约机期满等时机,几乎不消耗营销成本就可以完成定制机销售任务。
大数据应用在发挥社会价值方面同样大有可为,如北京市旅游局所发布的景点舒适指数,卖场为零售商提供能够顾客来源、商铺、展位人流情况,以及高速公路、交通拥塞和故判断,这些都有大数据应用和分析的功劳。
大数据应用加速发展的关键因素
加速大数据应用的发展很重要的一个因素就是要转变观念。根据中国移动的经验,应该确立几个原则:一是利用大数据技术,竭尽可能收集整理数据,竭尽可能关联数据,竭尽可能保存数据,将数据视作企业核心资产。二是充分发挥大数据价值,竭尽可能使得现有商业模式更加具有竞争力;竭尽可能发掘新的商务模式,直接将数据变成价值。
更多阅读
从民生银行数据分析银行板块分析_民生银行(600016)_股吧_金融界爱 600016 股吧
从民生银行数据分析银行板块分析点击量:1756 回复数:14 JAY小样 发表于 2010-12-18 02:25:41qvtf同志们,网站现在在封这个帖子,请大家用自己的名字转贴传播开来,这就是我们与机构喉舌斗争的武器,我的ID现在发贴已经非常困难了,希望大
依托大数据分析下的广告家adpro 互联网广告数据分析
广告家adpro是中国最大的本地化营销自助平台,依托自身的大数据分析能力技术优势,建立了完整的场景化营销生态系统。广告家adpro覆盖率庞大,却能精准定向投放向目标用户,建立了本地媒体的生态系统。光音旗下的adpro广告家(procn)是中国最
大数据分析到底需要多少种工具? excel数据分析工具
摘要JMLR杂志上最近有一篇论文,作者比较了179种不同的分类学习方法(分类学习算法)在121个数据集上的性能,发现RandomForest(随机森林)和SVM(支持向量机)分类准确率最高,在大多数情况下超过其他方法。本文针对“大数据分析到底需要多少种工具
数据分析3.0时代 数据分析3.0
已经花了数年时间研究“数据智能”的公司相信,全球已经经历了数据分析的两个时代,即BBD(before big data)——“大数据前”,以及ABD(after big data)——“大数据后”,这两个时代不妨命名为数据分析1.0 和2.0 时代。一般来说,2.0 版
陈桃旺:触点+技术零售新模式
当下移动科技已经成熟,一成不变的零售模式注定要改变,但是我们发现零售商仍一如既往地钟情于收银机系统、库存系统,而且很难跟他们沟通。在移动消费时代新的市场环境中,零售业对大数据、新的接触点还了解不多。 零售业务起