65、赵刚:企业大数据架构:业务、数据和技术

嘉宾简介:

赵刚,博士,北京赛智时代信息技术咨询有限公司(CIOManage)创始人,主要从事智慧产业和智慧应用咨询。曾任赛迪顾问公司高级副总裁,分管信息化、互联网与管理咨询业务,曾任赛迪时代公司总裁,赛迪学者。长期致力于信息化与信息产业的研究和咨询,服务的政府和企业客户超过100家。著有专著《大数据:技术和应用实践指南》、《IT管理体系——战略、管理和服务》,参编《信息化基本知识》、《智慧城市:规划、建设与测评》、《信息系统审计》等著作,近期主持完成银行大数据应用、保险大数据应用、互联网公司大数据应用、大数据营销等研究报告多本。

以下为分享实景全文:

大家好,我叫赵刚,主要从事信息化和信息产业的咨询工作,做了十几年。近几年,我比较关注大数据应用,在去年10月出版了一本《大数据:技术与应用实践指南》,主要面向传统行业关注大数据应用的读者,希望帮助他们了解大数据的业务价值,熟悉大数据的技术体系结构和关键技术。

今天,结合我的这本书,也结合我近期的一些研究,想和大家分享的题目是《企业大数据架构:业务、数据和技术》,整个内容是偏顶层设计的东西。从咨询的角度,试图分析业务视角、数据视角和技术视角下的不同的大数据架构,以及他们之间的相互关系,希望能建立起企业中业务、数据和技术等领域对大数据的共识,更有利于推进大数据的应用。可能对群内很多一线从事大数据技术和应用的专家,这些内容太浅层次。而且,我的知识结构比较泛,不深入,哪里讲得不对的地方,请专家们指正,砖下留情。

我分享的内容分四个部分:

一、企业大数据的业务架构

二、企业大数据的数据架构

三、企业大数据的技术架构

四、企业大数据的运营架构、安全架构等

先讲第一个部分,企业大数据业务架构。

从企业业务的角度看,大数据应用是业务导向的。业务架构的规划,是要确立大数据应用的业务目标,业务场景,可能获得的业务价值以及为此设计的业务运营模式、商业模式等。

从业务角度看,信息化解决的就是信息不对称的问题。相比以往的企业信息化,大数据让企业的数据更为丰富,从而可能对企业业务产生更大价值,主要体现在了三个方面:

一是提供更多的信息,发现大数据的潜在价值。以往我们分析的只是20%的结构化数据,今天我们有能力分析80%的非结构化数据。

二是更动态的行为信息,发现大数据还原现实场景的价值。以往我们的分析只是业务流程的结果信息、对象属性描述信息,今天我们有能力对流程中的各类行为信息进行获取和分析,包括客户行为信息、员工行为信息、设备行为信息、空间行为信息等等。这些信息的获得,是依赖于互联网、物联网、移动互联网、社交网络等信息基础设施和平台所建立起来的对客观对象行为的跟踪和记录。

三是相互连接的信息,发现大数据整合创新的价值。以往我们的分析只是局限于某个范围或某个领域,今天随着技术的发展,不同场景下的数据被连接起来了。连接,让数据也产生了网络效应,带来了更大的业务价值。可能是互联网和移动互联网数据的连接,可能是企业数据和社交媒体数据的连接,可能是线上服务和线下服务数据的连接,可能是网络、社交和空间数据的连接等等。不同数据源的连接,使得我们有能力还原和洞察真实的、曾经的、复杂的“现实”。

今天,谈到大数据,从业务角度看,实际的业务需求主要就是对来自互联网、移动互联网、社交媒体、物联网上新业务的数据挖掘利用,把数据发

现的“真相”应用到营销、产品设计、业务创新、运营优化、服务改进、风险管理等多方面。在业务线下,每个业务场景的设计是基于前面谈到的大数据所带来的三个方面的价值。

以银行为例,基于大数据的网上银行或网上商城客户精准营销就是一个业务应用场景,业务目标是获得和保留更多的优质客户,提供更精细化的产品和服务给他们。通过对网银客户行为数据的分析,能设计各种分析模型,比如网银客户群的分类分析,哪些是高星级客户?特点是什么?年龄分布?等。网银客户的行为习惯分析,登录时间、地域、客户端、逗留时间、产品访问情况等?。网银客户的风险分析,如登录异常等。分析结果的应用直接体现在了精准营销、服务体验的改善等方面。

再看一个银行的例子,基于银行网点大数据的客户分析也是一个业务应用的场景,业务需求是把握在营业厅这个线下场景下的客户行为信息,从而加强精准营销、客户需求把握、产品推荐等服务。一些新的技术如物联网、传感、图像识别、语音识别、智能ATM等被应用在网点,这些技术帮助客户获取到了每天在银行网点的更多客户和柜员的动态信息。一旦客户进入营业厅,并对客户进行识别后,一方面会记录客户在网点的轨迹,另一方面会将客户关系管理系统中的客户基本信息、客户社交网络轨迹、客户网银轨迹等进行关联,从而能够更直接地了解客户,服务好客户,也能为客户提供针对性现场服务,比如推荐理财服务、推荐附近商场的刷卡打折服务等。这是线上和线下多场景连接的很好的例子,这些例子在很多商场、超市,甚至工厂,都能被很好地应用。

同样,手机银行、微信银行、社区银行等不同应用环境里,以及这些应用环境彼此的连接,也能够设计出很多业务场景,从而提升业务的价值。

银行的例子可以推广到很多传统企业。从业务架构的逻辑看,业务价值是大数据应用的目标,围绕业务价值的场景分析和设计是大数据应用的关键。不同业务场景对数据质量、数据处理的时效性要求不一样,业务架构会映射出对数据和技术架构的要求,提出到对数据采集、处理和分析模型等的要求,以及根据业务的要求对不同技术手段的应用,从而实现业务价值。这是业务角度看,三者的关系。也是企业CEO和业务部门对大数据的认知。

从我们的咨询需求看,很多大数据应用就是由业务部门提出并推进,这个阶段对业务架构的分析和设计,能够很好地和他们达成共识。业务目标、

价值、业务场景,大数据商业模式等是重点。

下面,讲第二个部分,企业大数据的数据架构。这是从数据的角度看企业大数据应用。我认为,可以从三个角度,规划数据分析师和数据科学家理解的大数据架构:1)大数据的内容,2)大数据的管理,以及3)如何从数据发现新的数据和规律,包括数据模型或者算法。首先,阐明数据内容的工作非常关键。有没有数据?数据是什么?数据的质量怎么样?数据生命周期是什么?这些是大数据应用的根本问题。

有没有数据的问题,涉及数据的可获得性的问题,这是一个关键问题。大数据时代,数据成为企业的一个核心资源。每个企业都想拥有更多的数据资源。不同企业获取数据的能力不尽相同,但对数据获取的意识和机制要建立起来。最基本的一步就是在互联网、移动互联网、物联网、社交网络上开展业务,服务客户。数据是什么的问题更为关键。例如,我们采集到了客户属性数据、客户行为数据、客户交互数据等,数据分析师会做很多工作来充实客户数据的内容。例如,我们将客户进行分类,给客户打标签,给关于客户的非结构化文档数据定义元数据、建立企业级的客户主数据模型等等,这都是在丰富我们手中的客户数据的内容。搞清楚我们手上的数据表示了什么,是我们进一步进行数据挖掘的基础。

当前,我们处理的很多大数据并不是结构化数据,或者是半结构化的,很多甚至是完全非结构化的。我们的计算处理技术,试图从这些数据中发现意义,把大数据转化为结构化的小数据。

关注数据的内容,就会比较关注数据质量。这是一个综合性的指标,它涉及数据的准确性、完整性、一致性、完备性、客观性等多个方面。数据质

量也是数据分析师们花很多时间思考和解决的问题。这是数据架构的第一个维度。

数据架构第二个维度是大数据管理。从数据的采集、存储、处理、分析、展现、质量管理、数据开放、数据保护、数据备份、数据风险审计、数据安全等多个角度,确立对大数据的管理规则、方法和制度。在大数据应用的初期,很多企业还没有意识到数据管理的重要性,但随着数据运营的深入,数据管理的问题就日益重要。这也是数据分析师的重要职责。当然,数据管理是在技术支持下实现的

第三个维度是大数据挖掘和分析。建立大数据挖掘和分析模型,是数据分析师的核心使命。计算技术不能解决所有分析问题,大数据分析与传统分析一样,有一个从简单模型走向复杂、专业模型的过程。这个部分要思考:要不要模型?是简单模型还是复杂模型?业务模型与数据模型的映射是什么?是描述性模型还是预测性模型?哪些模型有更好的预测结果?哪些模型是通用性的?哪些模型是业务专有的?聚类,分类预测,推荐系统,常用的还是这些模型

从大数据的分析实践来看,统计模型的应用是一项基本的技能。熟练地使用SAS等统计工具有利于提高分析能力。在通用模型的基础上,更多行业

最佳实践相关的分析模型会被提炼出来,其中也蕴含很大的商业价值。很多咨询公司就是在某一个特定行业为客户提供数据分析的模型服务。我们公司

也在一些行业探索这项服务。这是从数据角度,对大数据架构的理解。数据是业务价值实现的基础,但价值实现也要依赖于技术的支持。

下面是第三个部分,企业大数据的技术架构。这是从计算技术的角度来看大数据应用的架构。

从计算角度看,大数据特征的4个V就是大数据技术关键的性能指标:数据大,通常在TB级以上;数据类型多,有结构化的,半结构化的,非结构化的;数据处理的时效性要求高,有分钟级和秒级相应的需求;一些应用场景对数据的准确性有较高需求。

这对传统的计算能力提出了很高挑战!原有的数据库、数据仓库技术达不到这些性能要求!于是,新一代的大数据处理和分析技术出现了,将复杂问题进行分解,采取分布式集群计算架构来满足当前的大数据计算需求。

大数据技术架构的发展和成熟,得益于Apache基金等开源组织的努力,更得益于Google、Yahoo、Facebook等互联网公司的努力,他们把这些技术应用于互联网大数据分析的场景,检验了技术的能力,并开放到开源组织中。当然,国内BAT也作出很大贡献。

从大数据技术架构角度看,在原有数据库、数据仓库、商业智能技术的基础上,当前主流的大数据处理技术包含了四类:

65、赵刚:企业大数据架构:业务、数据和技术

一是基于MPP的大数据技术,就是俗称的数据仓库一体机,主要解决海量结构化数据的分布式计算和处理。产品包括EMCGreenPlum、Teradata的Aster、南大通用的GBASE8a MPP集群等。

二是基于Hadoop的大数据技术,通过分布式集群,结合MapReduce处理,主要解决非结构数据的分布式计算和处理,特别适用于批处理需求,如日志分析等。Hadoop技术是开源的。商业化版本有Cloudera,MapR等,国内华为,小象,Radoop等。

三是基于内存计算的大数据技术,如Spark、SAPHana等,通过将计算加载到高内存中进行计算,提高计算处理能力,适用于迭代计算的需求,如实

时迭代式的图表分析等。

四是基于流计算的大数据技术,如Storm、S4等,适用于实时计算要求高的场景。

目前主流的大数据处理技术是这四类,本身大数据处理技术还在不断演变发展中,四类技术的集成应用平台也在不断研发中,未来满足更高的处理性能要求,技术还会不断创新。

在这些大数据处理技术的基础上,针对大数据存储的要求,发展了各类NOSQL的数据库技术,如Hbase、Redis、MongoDB等。用SQL语言去查询

和访问大数据平台,产生了SQL onHadoop的技术。模型和算法方面有与数据挖掘和机器学习相关的技术。在对大数据分析结果进行展现的层面,则有各类大数据可视化的技术产生。同时,大数据处理技术的革新也带来了络、存储、信息安全技术的演变和发展。

对于大多数企业来说,没有必要在内部自建大数据技术处理能力。获得大数据技术处理和分析的能力,更多地将通过云服务的方式提供给数据分析的团队。亚马逊已经能够提供此类服务。

技术架构的出发点是业务和数据。技术的细节不再展开,我也不是十分专业。但从技术角度看,联盟中的很多企业的产品可能涉及其中一个或几个技术。过去有很多专家已经在分享相关技术,我就不班门弄斧了。

简单提一下大数据运营架构和大数据安全架构。

大数据运营架构,是从运营数据的角度,思考如何让数据文化植根在企业中?如何让数据成为各个业务部门业务增值的利器?如何让大数据分析的

组织架构高效运转?

大数据安全架构,则是从数据安全和数据隐私的角度,如何设计数据安全保护体系?如何设计数据隐私侵犯的防范体系?

这是大数据应用的全貌。看树木前,先要了解森林是什么样?一个完整的企业大数据应用架构包含了业务、数据和技术等架构。但不同的视角关注的侧重点不同,也有各自的“语言”和规则。这些架构间的相互映射是企业大数据应用成功的保证。

好。今天,和大家分享的就是这些。跨度较大,都是框架性的阐述,这是咨询的特点,但愿没让大家觉得我在忽悠。希望我的浅见,有助于帮助大

家从顶层设计的角度理解和认识大数据。角色不同,对大数据的视角不同,关注点也不同,但我们都有责任把各自领域的大数据架构研究透、应用透(比如业务),同时我们也需要能够理解其他角度(比如数据、技术)对我们的支持和影响,最终一起发挥大数据应用价值!

  

爱华网本文地址 » http://www.413yy.cn/a/25101014/207266.html

更多阅读

大数据时代:大数据技术实施与运用大数据分析

在发展历程上,大数据与云计算很类似,开始都搞不清是什么概念,但有很多人在说,难免南辕北辙。一个非常有趣现象:会有很多人说大数据不是什么,但很少有人说是什么。但这都不妨碍大数据成为产业发展趋势。当务之急是不纠缠于概念,直接关注有哪

百度技术沙龙:基于大数据的预测技术

点击标题下「大数据文摘」可快捷关注本次分享的话题分别是“大数据与预测”和“基于互联网数据的社会经济预测”。回复“百度沙龙”,可一并下载2篇PPT在由@百度主办、@InfoQ负责策划组织和实施的第53期百度技术沙龙活动上,来自百度研

大数据应用:数据、业务与技术

大数据应用(BDA)是企业级应用的新方向,大数据应用架构也成为新一代企业级应用架构的核心。传统企业级架构是由业务架构、数据架构和技术架构组成,大数据应用架构与传统企业架构的不同也正是体现在数据、业务和技术架构的独特性。数据

国双科技CEO祁国晟:如何玩转大数据

2013年08月03日21世纪经济报道纪佳鹏北京报道  核心提示:在国双科技CEO祁国晟眼里,达到一定量级或者需要从一组数据中解答一个复杂的问题就是大数据的价值体现之处。  这两年,“大数据”、“云计算”概念被炒得火热,许多技术小白

《排课高手》的试用、注册和技术咨询 排课高手26.63 注册机

一、软件的试用:本软件为共享软件,可以无限期免费试用。试用版可以排出全部课表,但调课、查看、打印功能受到部分限制。试用版只能查看前4个班的任课教师课表。试用版可以打印部分班级课表、前4名教师的教师(教室)课表、第1个学科课表、第

声明:《65、赵刚:企业大数据架构:业务、数据和技术》为网友你我终殊途分享!如侵犯到您的合法权益请联系我们删除