(大庆驻哈尔滨办事处黑龙江哈尔滨150008)
摘要:由于数据挖掘在各行业中的广泛应用,因而该技术引起了人们的普遍关注。文中介绍了数据挖掘的分类方法功能,特点,技术流程和简介了数据挖掘的应用范围,进一步指出了它的发展方向。
关键词:数据挖掘;应用;综述
一、数据仓库的基本概念
数据仓库是一种管理技术,它能够将分布在企业网络中不同站点的商业数据集成到一起,为决策者提供各种类型的、有效的数据分析,起到决策支持的作用。数据仓库概念的创始人WJ-Hnmon在《建立数据仓库》一书中指出:“数据仓库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持经营管理中的决策制定过程。”
(二)数据挖掘的原理
数据挖掘(DM)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘是一种从大型数据库或数据仓库中提取隐藏的预测性信息的新技术。它能开采出潜在的模式,找出最有价值的信息.指导商业行为或辅助科学研究。
(三)数据挖掘的分类
数据挖掘可按数据库类型、挖掘对象、挖掘任务、挖掘方法与技术以及应用等几个方面进行分类。
按挖掘任务分类有:关联规则挖掘、序列模式挖掘、聚类数据挖掘、分类数据挖掘、偏差数据挖掘和预测数据挖掘等类型。各类数据挖掘任务不同,采用的方法和技术也将会不同。
二、数据挖掘的主要功能
主体如下五大类功能:
(一)自动预测趋势和行为。数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。
(二)关联分析功能。数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。
(三)聚类功能。数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。
(四)概念描述功能。概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。
(五)偏差检测功能。数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。
特别要指出的是,数据挖掘技术从一开始就是面向应用的。
三、数据仓库的特点及其与传统数据库的区别:
(一)数据仓库是面向主题的,它是与传统数据库面向应用相对应的。
(二)数据仓库是随时间变化的。它表现在以下几个方面:首先,数据仓库的数据时限要远远长于传统数据库中的数据时限。前者,一般在5至10年,而后者只有3至6个月。
(三)数据仓库是一致的和稳定的。数据仓库所反映的是历史数据的内容,而不是处理联机数据。
(四)数据仓库是一个集成的信息源。原始数据与适合DSS分析的数据之间差别甚大。因此,在数据进入数据仓库之前,必然要经过综合加工与集成。
(五)数据仓库中存放的数据为信息数据,而专统数据库中存放的数据为操作数据:操作数据是那些在业务系统中经常悼念和存储的信息。
四、数据挖掘技术的过程
数据挖掘(DataMinin9,DM)技术可以帮助人们从大量的数据中智能地、自动地抽取隐含的、事先未知的、具有潜在价值的知识和规则。
(一)数据挖掘的一般过程。数据挖掘的过程一般可分为:数据选取、数据预处理、数据转换、数据挖掘、模式解释和知识评估等知识利用等等。
图l数据挖掘的基本过程
(二)数据挖掘的常用方法。数据挖掘的常用方法主要包括:关联分析,聚类分析,分类分析,分布分析与趋势预测。
五、数据挖的主要方法
(一)归纳学习方法
归纳学习方法是目前重点研究的方向之一,研究成果众多。从采用的技术上看,分为两大类:信息论方法和集合论方法。信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,所以—般文献中称它为决策树方法。该类方法的实用效果好,影响较大。
(二)仿生物技术法
仿生物技术典型的方法是神经网络方法和遗传算法。这两类方法已经形成独立的研究体系。它们在数据挖掘中也发挥了巨大的作用,我们将它们扫并为仿生物技术类。
(三)公式发现法
在工程和科学数据库中对若干数据项进行一定的数学运算的相应的数学公式。常见的有物理定律发现系统BACON、经验公式发现系统。
(四)统计分析法
利用统计学原理对数据库中的数据进行分析,能得到各种不同的统计信息和知识,它是一一门独立的学科,也作为数据挖掘的一大类方法,包括:常用统计、相关分析、回归分析、差异分析、聚类分析、判断分析。
(五)模糊数学法
模糊性是客观存在的,当系统的复杂性越高,其精度的复杂性越高,其精确化能力便越低,这就意味着模糊性越强。利用模糊集合理论进行数据挖掘的方法有:模糊模式识别、模糊聚类、模糊分类和模糊关联规则等。
(六)可视化技术法
可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,这对于揭示数据中内在本质以及分布规律起到很强的作用。对数据挖掘过程可视化,并进行人机交互可提高数据挖掘的效果。可视化方法有以下几种:提取几何图元、绘制、显示和演放。
六、数据挖掘的应用简介
数据挖掘研究具有广泛的应用前景,因为数据挖掘产生的知识可以用于决策支持、信息管理、科学研究等许多领域。数据挖掘技术与各个行业的有机结合体现了其蓬勃的生命力,而这种趋势正在以前所未有的速度继续向前发展。
(一)在电信业中的应用
(二)在金融经域中的应用
(三)在商业零售中的应用
(四)在工业生产中的应用
(五)在生物与医学中的应用
七、数据挖掘技术的发展前景
(一)改进数据挖掘算法。现有的数据挖掘算法由于历史原因存在种种缺陷,为了提高数据挖掘系统的可用性、可扩展性、高效性,我们需要对—数据挖掘算法进行改进,需要探索新的挖掘算法,以适应新知识环境下的数据挖掘。
(二)web挖掘。随着计算机硬件和软件的升级,Web数据的结构也将会发生变化,数据量将会更多更复杂。有关Web内容挖掘、Web日志挖掘和因特网上的数据挖掘服务,将成为数据挖掘中一个最为重要和繁荣的子领域。
(三)数据挖掘中的隐私保护与信息安全。任何事情都有其两面性,数据挖掘领域也不例外,在挖掘数据产毕财富的同时,随之产生的就是隐私泄露和信息安全问题。
结束语
数据挖掘技术是一个充满希望具有前途的研究领域,商业利益强大驱动力将会不停地促进它的发展。每年都有新的数据挖掘方法和模型问世,人们对它的研究正日益广泛和深入。尽管如此,数据挖掘技术仍然面临着许多问题和挑战:如数据挖掘方法的效率有待提高。近年来在网络与分布式环境下多媒体数据库发展很快,面向多媒体数据库的挖掘技术与软件今后将成为研究开发的热点和相关领域的技术载体成为研究开发热点。