【摘要】数据挖掘是一种新兴的数据处理技术,在数据的利用和提取方面发挥着日益重要的作用。文章从数据挖掘的概念出发,概述了数据挖掘的各种方法,分析了数据挖掘技术的应用领域
一、数据挖掘概述
随着数据库技术的迅速发展以及数据库系统的广泛应用,人们积累的数据越来越多。激增的数据背后隐藏着许多重要的信息,人们希望能够对其进行更高层次的分析,以便更好地利用这些数据。数据库系统虽然可以高效地实现数据的录入、查询、统计等功能,但无法发现数据中存在的关联和规则,无法根据现有的数据预测未来的发展趋势。缺乏挖掘数据背后隐藏的知识的手段,导致了“数据爆炸但知识贫乏”的现象。现实的需求促使一门新的技术诞生??数据挖掘。
数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这些数据可以是结构化的,如关系数据库中的数据,也可以是半结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的,可以是演绎的,也可以是归纳的。发现了的知识可以被用于信息管理、查询优化、决策支持、过程控制等,还可以进行数据自身的维护。
二、数据挖掘的一般过程
数据挖掘的过程是依据不同信息平台的数据类型,采用面向环境的代理管理方式,实现面向环境要求的数据挖掘。数据挖掘的过程一般由个阶段组成:数据准备、数据挖掘和评价输出。
1.数据准备。数据挖掘的处理对象是大量的数据,这些数据一般存储在数据库系统中,是长期积累的结果。但往往不适合直接在这些数据上进行知识挖掘,需要做数据准备工作,一般包括数据的选择、净化、推测、转换、数据缩减等。数据准备是数据挖掘的第一步,它是这个过程的核心,数据准备是否做好将影响到数据挖掘的效率、准确率以及最终模式的有效性。
2.数据挖掘。数据挖掘采用较多的技术有决策树、分类、聚类、粗糙集、关联规则、神经网络、遗传算法等,通常根据数据挖掘的目标,选取相应算法的参数,分析数据,形成知识的模式模型。
3.模型评估。上面得到的模式模型,,有可能没有实际意义或没有实用价值,也可能没有准确反映数据的真实意义,甚至在某些情况下与事实相反,因此需要对其进行评估,确定哪些是有效的、有用的模式。
4.巩固知识。用户理解的、并被认为是符合实际和有价值的模式模型形成了知识,同时还要注意对知识作一致性检查,解决与以前得到的知识相互冲突、矛盾的地方,使知识得到巩固。
5.运用知识。发现知识是为了运用,如何使知识被运用也是数据挖掘的步骤之一。运用知识有两种方法:一种是只需看知识本身所描述的关系或结果,就可以对决策提供支持;另一种是要求对新的数据运用知识,由此可能产生新的问题,而需要对知识做进一步的优化。数据挖掘的过程可能需要多次的循环反复,每一个步骤一旦与预期目标不符,都要回到前面的步骤,重新调整,重新执行。
三、数据挖掘的常用方法
目前常用的数据挖掘的方法有分类、聚类、关联规则、Web页挖掘等。
1.分类。分类在数据挖掘中是一项非常重要的任务。分类的目的是通过统计方法、机器学习方法(包括决策树法和规则归纳法)、神经网络方法等构造一个分类模型,然后把数据库中的数据映射到给定类别中的某一个中去。
2.聚类。聚类是把一组个体按照相似性归成若干类型,即“物以类聚”。它的目的是使同一类别之内的相似性尽可能大,而类别之间的相似性尽可能小。知识外化过程的下一层次包含了更为强大的搜索工具和文件管理系统,它们对贮存的知识进行分类,并能识别出各信息源之间的相似之处。基于此,可用聚类的方法找出知识库中各知识结构间隐含的关系或联系。
3.关联规则。关联规则挖掘就是发现大量数据中项集之间有趣的关联或相关联系。关联规则广泛应用于决策支持系统。关联规则分为布尔关联规则与量化关联规则,这区分于它们所处理值的类型。并根据其涉及的属性维数分为单维关联规则或多维关联规则。这方面比较有影响的算法有Apriori算法等。
4.Web页挖掘。随着Internet的迅速发展,使得网络上的信息量无比丰富,通过对Web的挖掘,可以利用其上的海量数据进行分析,并根据分析结果找出企业管理过程中出现的各种问题,对这些信息进行————分析和处理,以便识别、分析、获取、存储、传递信息,并将其转化为知识。
四、数据挖掘的应用
数据挖掘的应用十分广泛,各个领域应用上既有相同之处,又有各自不同的独特地方。以下是数据挖掘技术的一些典型应用领域:
1.市场销售:是数据挖掘技术应用最早也是最重要的领域。主要功能是:市场定位,消费者分析,预测销售趋势,优化营销策略,分析库存需求,识别顾客的购买行为模式,协助货架布置,制定促销活动时间,促销商品组合以及了解滞销和畅销商品状况等商业活动。
2.金融:预测存、贷款趋势,优化存、贷款策略;抽取预测模式;监督交易活动,发现交易规则。
3.Internet的应用:研制新的更好的索引系统、利用已有索引系统或搜索引擎开发高层次的搜索或发现系统。
4.化学、制药行业:从各种文献资料总自动抽取有关化学反应的信息,发现新的有用化学成分,分析和解释有利于提高产品质量、功能和增加公司利润的重要数据。
5.遥感领域:在遥感领域针对每天从卫星上及其它方面来的巨额数据,对气象预报,臭氧层监测等能起很大作用。
6.学校教育:学院分析学生历史信息,决定哪些人愿意报考何专业,发送手册给他们。分析教师的学历、年龄、职称等与授课效果的关联规则,制定教学方案,促进教学质量的提高。
7.其他应用。药房分析医师的处方,判断哪些医师愿意购买他们的产品。广告公司分析人们购买模式,估计他们的收入和孩子数目,作为潜在的市场信息。旅游调查局分析不同团体的旅游模式,决定不同团体之间的关联。医师分析病人历史和当前用药情况,不仅诊断用药而且预测潜在的问题。