学生:上次老师谈到,建设企业集成信息系统的基础与核心任务是数据集成,或者说是标准化、规范化的信息资源管理,只有在这个基础上才能建立和运行集成化的信息系统。怎样理解这一论断呢?
共享数据库的概念
教授:这是一个需要讨论清楚的认识问题。让我们从共享数据库的概念讲起吧。
先看一个例子:有个公司最先开发了工资系统,按职工工资单建立了数据存储。后来开发了人事系统,按人事档案建立了人事数据存储。在管理工作中,工资系统要用人事数据,人事系统要用工资数据,这就需要编制数据抽取和格式转换的接口软件,如图1。图1两个应用的接口
随着公司的发展和职工人数的增加,又开发了职务历史跟踪系统,购买了劳动分布软件包。这样,四个应用相互使用数据,就需要12个接口,如图2。我们假定每个应用项目有一个数据存储(实际情况是每个应用都使用了多个冗余的数据存储),逐渐增加的应用项目要做到信息互用,额外的接口的数目如下表:应用项目数 数据存储数 接口数1 1 02 2 2 (2×1) 3 3 6 (3×2) 4 4 12 (4×3)5 5 20 (5×4)6 6 30 (6×5)7 7 42 (7×6)这些接口的数目和复杂性,随着新的应用增加按几何级数增加。最终,增加新应用的花费和现有系统的集成,靠增加接口的方法,变得可望而不可及了。图2 四个应用的接口
数据管理的一项任务,就是提倡对相互有关的应用项目的信息资源做好规划和协调。通过这项工作,可以最大程度地提高数据的共享,而使数据冗余度最低。上例中四个应用的有关职工的信息如果组织成共享数据库,四个应用都直接存取共享数据库,而不是通过接口互用数据,就简单、可靠、高效率地实现了四个应用的集成,如图3。图3 共享数据库不需要接口
上述工资单和人事登记表等等,是管理人员使用的数据格式,我们把它叫作“用户视图”。一般来说,不能按用户视图的原样子来建立数据库。学生:我在学校里学过数据结构规范化的理论,可是不会用,实际工作中差不多都是这样“建库”的。教授:所以我们在例中把它们叫作“数据存储”,而不叫“数据库”。要把多个应用所涉及的用户视图,按新系统的信息需求重新改造制作一番,才能成为共享的“职工数据库”。学生:这么说,共享数据库的概念并不神秘;而且,从例中可以看出,共享数据库确实是集成化的信息系统的基础与核心。可是,如此简单的道理,为什么得不到普遍的认识呢?教授:原因是复杂的,既有技术历史上的原因,又有教育培训上的原因。现在大家普遍应用的关系型数据库管理系统(RDBMS),从dBASE、FoxPro 到 Oracle 和 Sybase等等,都提供了非常简单的物理数据库的建立、修改或删除的手段,比起过去用三代程序语言来“建库”不知简化了多少倍。70年代后期,有的数据库专家就提出了“数据库风险”的警告,意思是说,由于使用数据库管理系统,不同的开发人员,在不同的时间,为不同的应用,很容易地建一些“数据库”,很可能产生大量冗余且不一致的数据,给信息处理和使用造成很大的困难。许多数据库产品供应商,只讲某一数据库管理系统的完善功能,好像不用规划和协调就可以解决信息资源管理的问题;一些受过专业教育的人,学了数据规范化的理论但没经过从用户视图到数据库设计的训练;现在多媒体和超文本等信息技术开始普及应用,但是企业管理最基本的事务数据的结构化分析与组织技术却受到冷遇,似乎不值一提,等等。这些正是不少企业应验了“数据库风险”的原因。集成化的数据环境
学生:实在说,我不论在校期间还是工作中,都没有系统学习过数据集成的理论和方法,请老师给补补课。
教授:在这么短的时间里,只能概要地说说,补课还得靠你回去结合工作进行学习。詹姆斯·马丁(James Martin)15年前就提出了企业的计算机信息系统是以数据为中心的原理,写出了数据集成的理论和方法专著。“数据中心原理”是说,只要企业的性质和目标不变,它的数据类就是稳定的,任何经营管理的瞬间,都是对这些数据类的数据输入(记录的增加、修改或删除)和数据输出(记录的检索或使用),信息系统的开发应该面向数据,而不应该面向处理过程,因为处理过程是多变的(图4)。图4 数据位于现代数据处理系统的中心
他明确提出“数据环境”(Data Environment)的概念,认为企业的计算机应用有四类数据环境,反应了由低级到高级的发展过程。第一类数据环境是数据文件(Data-Files)环境。是指早期用程序语言(多数是COBOL)建立的数据存储结构,缺乏数据分析工作,一般是与应用程序密切相联。优点是应用开发见效快,缺点像上面的例子所反映出的问题,随着应用的增多,冗余的、不一致的数据也会越来越多,从而形成了混乱的数据环境,系统维护、集成十分困难。第二类数据环境是应用数据库(Application Data Bases)环境。当数据库管理系统出现以后,数据存储结构的建立大大简化了,但是数据分析工作没跟上,用DBMS按用户视图“建库”,方便性带来了随意性,于是应验了“数据库风险”,可能更快地形成混乱的数据环境,系统维护、集成同样十分困难。第三类数据环境是主题数据库(Subject Data Bases)环境。经过科学的规划和设计,用DBMS建立具有共享性和一致性的、本来意义上的数据库,即“主题数据库”。以主题数据库为主的数据环境才是集成化的数据环境,在这种数据环境中才能开发和运行集成化的信息系统。 第四类数据环境是信息检索系统(Information Retrieval Systems)。是指对一些主题数据库进行萃取和深加工,为高层查询和辅助决策准备的数据环境。学生:这样说来,不仅我们单位这几年基本上是在应用数据库的环境中转来转去,可能许多单位也是如此。再说,好多人并不晓得、大家也不讲“数据环境”这个概念。教授:这正是有些单位的MIS搞不上去的一个重要原因。我们说,企业信息系统集成的基础与核心任务是数据集成,就是要改造以数据文件和应用数据库为主的、混乱的、低档次的数据环境。企业集成化MIS建设成功的重要标志,是达到高档次的数据环境──主题数据库和信息检索系统。诺兰模型把集成和数据管理分为前后两个阶段,似乎可以先搞集成后搞数据管理,但后来的实践表明这是行不通的。米歇模型对此作了修正,揭示了信息系统集成与数据管理不可分,集成阶段的重要特征就是搞好数据组织,或者说信息系统集成的实质是数据集成。我们近些年来搞的集成化MIS研究和开发工作的一个重要体会,是要特别强调数据环境的建设,更确切地说,是以主题数据库为主的集成化的数据环境的建设。学生:主题数据库与通常所说的数据库主要区别在哪里?教授:主题数据库最主要的特征是面向业务主题,而不是面向应用程序,因而数据独立于程序。上面例子中的“职工数据库”面向职工管理的业务主题,包括对职工的自然情况、工资、职业历史和工班任务等管理内容,是主题数据库;而面向应用程序建立的“工资表”、“人事档案表”等等,是通常所说的数据库,或应用数据库。采用主题数据库的一整套技术方法,随着应用系统的增加数据库的数目有特定的增加趋势,到一定的时候就趋于平稳,不再增加,这样逐步建成的是稳定的、可控制的和有序的数据环境。否则,按应用数据库的做法,“数据库”将随应用系统的增加而迅猛增加,势必造成不稳定、不可控制和无序的数据环境。学生:那么,怎样理解主题数据库是“本来意义上的数据库”呢?教授:原先,数据库大师们本来追求的数据库是具有共享性、数据一致性和冗余可控制性等品格,有了数据库管理系统(DBMS)软件,这些应该做得更好才对。可实际上并非如此,一些人恰恰是用DBMS搞乱了数据环境,所建的“数据库”离大师们追求的品格相去甚远。马丁就把这类“数据库”叫“应用数据库”,实际不是本来意义上的数据库;而具有本来应有品格的数据库就叫“主题数据库”。科技史上这种现象无独有偶,要回复最初的、素朴的观点是很困难的。
信息资源管理基础标准
学生:数据环境建设和信息资源管理是什么关系?
教授:信息资源管理(Information Resource Management,IRM)是对整个组织信息资源开发利用的全面管理。IRM把经济管理和信息技术结合起来,使信息作为一种资源而得到优化的配置和使用。上次我们谈企业信息化的任务时,说开发信息资源既是企业信息化的出发点,又是企业信息化的归宿;只有高档次的数据环境才能发挥信息基础设施作用,建立集成化的信息系统,落实信息资源的开发和利用。因此,从IRM的技术侧面看,数据环境建设是信息资源管理的重要工作。学生:怎样把数据环境建设做为信息资源管理的重要工作来进行呢?教授:企业数据环境建设实际上包括两个方面的数据集成──企业内部的数据集成,以保证各部门的信息共享,从而使IRM问题集中在共享数据库的标准化、规范化设计上;企业与外单位(政府部门、业务伙伴和客户等)的信息自动化交换,特别是远程异地的信息自动化交换,使IRM问题集中在数据交换的标准化、规范化的协调和设计上。这两个方面的共同的关键,是信息资源管理的基础标准问题。把数据环境建设做为信息资源管理的重要工作来抓,就是要抓好信息资源管理的基础标准建设。学生:首先请谈谈,有哪些信息资源管理的基础标准。教授:经过借鉴和研究,我们在1992年提出了信息资源管理的五个基础标准。第一、数据元素标准。数据元素(Data Elements)是最小的不可再分的信息单位,是数据对象的抽象。研究表明,数据元素具有“原子意义”,根据企业类型和规模,不仅在数目上有统计规律,而且还有较稳定的对象集。对数据元素的标准化管理,包括对数据元素的定义、命名(标识)和一致性的管理。第二、信息分类编码标准。信息分类编码(Information Classifying and Coding)对象,是一些最重要的数据元素,它们决定着信息的自动化处理、检索和传输的质量与效率。应遵照《国家经济信息系统设计与应用标准化规范》和《标准化工作导则—信息分类编码规定》等标准化文件, 按“国际/国家标准—行业标准—企业标准”序列,建立起全组织的信息分类编码标准。主要包括分类编码对象、编码规则和编码表的标准化管理。第三、用户视图标准。用户视图(User View) 是最终用户对信息需求和数据实体的看法,主要有单证、报表、帐册和屏幕界面等。用户视图的规范化管理,包括用户视图名称、标识和组成的管理。规范并简化用户视图,是企业内外信息共享和交换设计的基础。人工管理积累了很多冗余、不一致的单证、报表,按它们的格式“建库”而导致低挡次的数据环境;改变这种状况,必须从改造传统的用户视图,重新设计适合“电子单证”的用户视图做起。第四、概念数据库标准。概念数据库(Conceptual Database)是最终用户对数据存储的看法。用户的信息需求,首先要集中到概念数据库的界定上。概念数据库标准包括数据库的名称、标识、主关键字和数据内容列表,列表项可以是数据元素,也可以是数据元素组。第五、逻辑数据库标准。逻辑数据库(Logical Database)是系统分析设计人员的观点。在关系数据模型中,逻辑数据库是一组规范化的基本表(Base Table)。概念数据库演化为逻辑数据库,主要工作是采用规范化原理与方法,将每个概念数据库分解成三范式的一组基本表。逻辑数据库的标准化管理,对建立稳定的数据结构,有计划、有步骤地实现全企业的数据集成具有决定性的意义。学生:怎样建立这些信息资源管理的基础标准呢?教授:信息资源管理标准化工作既是当务之急,又是长久之计。上面讲的基础标准,是最关键、最基本的信息资源管理标准化工作的大致范围。重要的是,大家对这些应该通过研讨取得共识,然后共同去做。不然,我们对开发信息资源讲了许多,总找不到技术工作的着手点,抓不到问题的关键,是不能落实开发信息资源的工作的。这些标准化工作,应采取“自上而下”和“自下而上”相结合的策略,需要正确的理论与技术指导,需要组建工作班子,还需要计算机辅助工具的支持。 重要角色──CIO与DA学生:做企业信息资源管理需要有哪些重要的工作人员?
教授:企业信息资源开发利用做得好坏的关键人物是企业领导和信息系统负责人。发达国家的一些大企业,为加强统一的IRM工作设立仅次于总裁的岗位CIO(Chief Information Officer)── 既熟悉企业生产经营又懂得信息资源管理的高层行政领导,是值得我们借鉴的。我们对CIO还没有统一的译名,不妨叫做“首席信息经理”或“总信息师”,正好和企业原有的总工程师、总经济师和总会计师一起统称“四总师”吧。IRM工作层上的最重要的角色就是数据管理员(Data Administrator,DA),我们应该尽早设岗。学生:数据管理员的职责和资历要求是什么?教授:发达国家数据管理员的职责和资历要求,可供我们参考。数据管理员负责支持整个企业目标的信息资源的规划、控制和管理;协调数据库和其它数据结构的开发,使数据存储的冗余最小而具有最大的相容性;负责建立有效使用数据资源的标准和规程,组织所需要的培训;负责实现和维护为支持这些目标的数据字典;审批所有对数据字典所做的修改;负责监督数据管理部门中的所有职员的工作。数据管理员应能提出关于有效使用数据资源的整治建议,向主管部门提出不同的数据结构设计的优缺点忠告,监督其他人员进行逻辑数据结构设计和数据管理。数据管理员的资历是:所受教育达到数据处理或有关领域学士学位程度,有五到十年的数据处理经验,三到五年的管理职责。必须具有一到两年的数据管理和数据字典的经验,具有在数据库环境下的应用开发和系统维护经验,具有结构化分析、设计和编程经验。必须善长于口头和书面交流。数据管理员还要有良好的人际关系:善于同中高层管理人员一起制定信息资源的短期和长期计划。在数据结构的研制、建立文档和维护过程中,能与项目领导、数据处理人员和数据库管理员协同工作。能同最终用户管理部门一起工作,为他们提供有关数据资源的信息。学生:我们单位跟许多单位一样,比较重视系统分析员的作用,对数据管理员的角色作用的重视程度就差得远了,甚至还不知道该设这个岗位,不做这方面的工作。教授:是啊,什么工作都需要人去做。企业的信息资源管理工作如此重要,必须引起企业领导和信息系统负责人的高度重视,组建专职与兼职相结合的工作班子,才能做好。