(重庆电子工程职业学院,重庆401331)
中图分类号:TP311.13文献标识码:A文章编号:1673-0992(2010)04-011-02
摘要:数据挖掘技术是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术。基于SOA架构的数字化校园信息平台的解决方案的重点是解决了校园信息化建设过程中不同厂家、不同产品、不同运行环境、不同开发工具开发的应用系统的松散型、低耦合的集成。
关键词:数据挖掘技术;校园信息化;SOA
一、引言
随着教育事业的发展和计算机应用的普及,校园信息化建设已经越来越受到重视。实现校园各项工作的信息化管理,适应了校园从业务扩张到注重内涵建设的需要,对促进教学质量的提高、减轻校园和各职能部门的工作压力、提升校园现代化信息管理水平都具有不可估量的意义。与校园信息化同时产生的一个问题是:面对各个应用系统积淀的海量数据(它们可供查询、检索等日常用途),是否可从中获取有用的信息,提供给各管理部门作为深化校园管理或决策的参考,数据挖掘(DataMining)可成为这一需求的强有力工具。本文试图对数据挖掘技术在校园信息化建设中的应用作初步探讨。
二、数据挖掘技术概念
数据挖掘技术是近年来随着数据库技术和人工智能技术的发展而出现的一种全新的信息技术。根据W.J.Frawley等人的定义,数据挖掘(Datamining)就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中提取隐含在其中的、人们事先不知道、但又是潜在有用的信息和知识的过程。数据挖掘和数据分析最大的区别在于,数据统计分析是通过一定量的数据来验证事先的假设,而数据挖掘则是从大量的规则的数据当中通过科学的方法来发现其中的关联,从而得出某种“出人意料”的结论。数据挖掘技术可广泛应用于各个领域,包括金融业、汽车业、通讯业、水文数据分析以及其他科技应用领域等。有别于传统的数据管理技术,数据挖掘荟萃了多学科的数据处理技术:①概率与数理统计学的抽样、估计和假设检验;②人工智能、触模式识别和高级语言学习的搜索算法、建模技术和学习理论;③来自其他领域的最优化、进化计算、信息论、信号处理、可视化和信息检索。
(一)数据挖掘与知识发现过程。
可以将数据挖掘看作是数据库中知识发现(KDD)核心部分。知识发现过程包括以下三步:
1.数据预处理:就是数据清理、数据集成、数据选择和数据变换。
2.数据挖掘:是KDD的核心部分,它将数据预处理的结果进行挖掘,从中提取数据模式。
3.后处理。后处理包括模式评估和知识表示。模式评估根据领域知识从挖掘出的数据模式中识别出真正有用的知识。知识表示则将有用的知识以各种可视化的形式(规则、数学模型、图等)提交给决策者或决策支持系统。
三、数字化校园信息平台概述
(一)基于SOA架构的数字化校园信息平台。
基于SOA架构的数字化校园信息平台的解决方案的重点是解决了校园信息化建设过程中不同厂家、不同产品、不同运行环境、不同开发工具开发的应用系统的松散型、低耦合的集成。
基于SOA架构的数字化校园信息平台解决方案的核心是建立校园SOA架构的技术标准,校园不同的信息系统遵循该技术标准,进行组件化和服务化,实现了不同的信息系统可以相互
调用功能服务。这样就大大提高了校园软件的重复使用率,提高软件系统的可扩展性,减低了校园的IT资源投资和IT建设风险。
(二)SOA架构的技术标准主要为。
服务组件架构SCA(ServiceComponentArchitecture)包括SCAEJB组件模型、SCA装配模型、SCA策略框架、SCAJava注释、API和组件实现、SCA绑定规范;服务数据对象SDO(ServiceDataObjects)。
服务管理平台SMP是正方公司基于SOA架构标准规范(SCA、SDO)之上,采用了WSDL、BPEL、XML、SOAP、JMS、UDDI等相关技术,与ESB、BPM、MQ等中间件产品有标准、开放接口的服务管理平台,重点建立校园信息系统服务集成的标准与规范,实现服务的集成注册、服务的重组、服务的发布、服务运行的监控。服务管理平台管理的服务包括:WebService集成、URL资源功能服务、WEB剪辑集成服务、Iframe集成服务、RSS集成服务、API集成服务、Portlets集成服务。
四、数据挖掘的功能
数据挖掘任务一般可以分为两类:描述与预测。描述性挖掘探索数据库中数据的一般性质。预测性挖掘对当前数据进行推断,以进行预测。数据挖掘中常用的建模技术有:
(一)聚类。将物理或抽象对象的集合分成相似的对象类(簇)的过程称为聚类。要求同一个簇中的对象彼此相似,不同簇问的对象相异。
(二)分类与预测。分类和预测都是根据已知数据建立模利用所建模型预测末知数据。不同之处在于:分类是预测记录的离散属性值,而预测则是预测连续属性值。分类采用决策树、人工神经网络、贝叶斯分类、支持向量机(SVM)等技术建立分类模型,预测则采用回归技术建立函数模型。
五、数据挖掘在校园信息化建设中的应用
随着校园信息化进程的推进,校园各种数据库中已积累了大量数据,这些数据可以满足人们的查询、检索、统计报表等日常事务处理。重要的是,能否发掘出蕴含在这个数据海洋中的有用信息,藉以提升办学理念、拓展办学思路、丰富决策手段、优化管理策略、激励教学改革。数据挖掘为我们实现这一目的提供了理论与技术支持。
(一)学习者特征分析。
学习者特征由学习者的知识结构和学习风格组成。知识结构说明了学习者对正在或将要学习知识的掌握情况,主要包括学习者初始技能、当前技能和目标技能。学习风格包括学习者的生理特征、心理特征和社会特征三个方面。
根据学生的基本信息、绩效信息、学习历史、学习偏好、知识结构等己有信息,利用数据挖掘功能分析学习者特征,帮助学习者修正自己的学习行为。通过对学习者特征分析结果和事先制定的行为目标标准进行比较,教师能够帮助学习者修正学习行为、提高学习能力、完善人格,有利于学生各方面素质的和谐发展。
(二)干预师生行为
校园教学管理数据库中记录着各届学生与教师的学习、工作、社会活动、奖励、处罚等情况,利用数据挖掘的关联分析,寻找师生各种行为活动之间的内在联系。如“当存在A、B时可以推出C”这样的规则,即当有A行为和B行为发生时,还会有C行为。在实际情境中,如果发现学生或教师已有A、B行为时,马上可以分析其产生C行为的可能性,及时制定策略促进或制止C行为的发生。也可以根据A学生与B学生在一起的行为,推导出A和B在一起是起着积极作用还是负面影响,进而可以选定学生之间的关联,促进学生之问的互助行为,这样有助于培养整个班级乃至整个校园的精神面貌与学习氛围。
(三)合理设置课程
在校园,学生的课程学习是循序渐进的,而且课程之间有一定的关联与前后顺序关系。在学一门较高级课程之前必须先修一些先行课程,如果先行课程没有学好,势必会影响后续课程的学习另外,同一年级学习同一课程的不同班级,由于授课教师、班级文化的不同,班内学生的总体成绩相差有时会很大。
利用校园教学数据库中存放的历届学生各门学科的考试成绩,结合数据挖掘的关联分析与时间序列分析等相关功能,就能从这些海量数据中挖掘出有用的信息,帮助分析这些数据之间的相关性、回归性等性质,得出一些具有价值的规则和信息,最终找到影响学生成绩的原因。在此基础上,对课程设置做出合理安排。
(四)学习评价
学习评价是教育工作者的重要职责之一。评定学生的学习行为,既对学生起到信息反馈和激发学习动机的作用,又是检查课程计划、教学程序以至教学目的的手段,也是考查学生个别差异,便于因材施教的途径。评价要遵循“评价内容要全面、评价方式要多元化、评价次数要多次化、注重自评与互评的有机结合”的原则。
在教学科研网络普遍建立的今天,利用数据挖掘工具,对学生的学习成绩数据库、行为记录数据库、奖励处罚数据库等进行分析处理,可以即时得到学生的评价结果,对学生出现的不良学习行为进行及时指正。另外,这种系统还能够克服教师主观评价的不公正、不客观的弱点,减轻教师的工作量。
六、应用方案设计
校园数据挖掘系统体系结构设计问题根据上面讨论的校园数据的实际情况以及数据挖掘技术在其中的应用分析,设计校园数据挖掘系统。本体系结构由数据预处理模块、数据挖掘引擎模块和输入输出模块三大部份组成。数据预处理模块:负责对各类数据库的数据进行预处理,主要是根据挖掘任务进行数据聚焦、清理、变换与集成。输入输出模块:实现用户与系统交互,将用户的需求提交给智能选择模块,评估挖掘知识模式,并将最终结果可视化。数据挖掘引擎模块:是系统的核心部份,它由四个子模块组成。
(一)中央控制模块。根据知识库提供的领城知识控制挖掘进程,并负责整个挖掘引擎各模块之间的协调和控制。
(二)智能选择模块。根据用户需求选取合适的数据挖掘算法或挖掘算法组合,并选取合适的样本数据。
(三)知识库。存放与挖掘任务有关的领域知识,例如,用于引导搜索方向的约束条件,控制搜索程进的各种阈值,评估结果模式的兴趣度等。
(四)核心算法模块。该模块包含校园数据挖掘所需的各类基本挖掘算法。
七、结束语
数据挖掘技术是一门新兴学科已经在过去10年得到了长足的发展,但仍有许多深入的问题值得我们去研究和探索,未来的发展空间特别是应用空间十分广阔。数据挖掘技术的运用可以有效的帮助数字化校园逐步规范管理流程,帮助数字化校园扩大业务范围、提高服务水平、加强内部管理,相信随着数据挖掘技术的不断发展深入,数据挖掘技术在校园信息业务中的应用将会形成一个新的高峰。
参考文献:
【1】杨永斌,《数据挖掘技术在教育中的应用研究》计算机科学,2006
【2】李璐璐,《基于数据挖掘技术的信息服务研究及系统模型设计》大学图书情报学刊,2008.4