简介:结合数字化校园的数据源,给出了在数据仓库环境下构建的数字化校园体系结构图,阐述了数字化校园数据仓库逻辑模型的设计,并把数据挖掘算法应用到数字化校园中,为高校管理者提供了决策支持信息。关键词数据仓库;数据挖掘;数字化校园中图分类号TP274文献标识码A文章编号1007-9599(2010)04-0000-01DigitalCampusApplication&StudyagainstDataWarehouseandDataMiningTechnologyWangYanpin1g,WangXiaoting2,ChangXianfa2(1.HeyuanTechnologyCollege,Heyuan517000,China;2.KaifengUniversity,Kaifeng475004,China)AbstractCombinethedatasourceofthedigitalcampus,giveanarchitecturemapofdigitalcampuswhichisbasedondatawarehouseenvironment,focusonthedigitalcampusdatawarehouselogicalmodeldesign,Andthedataminingalgorithmapplytothedigitalcampus,providethedecisionsupportinformationforuniversityadministratorsKeywordsDatawarehouse;Datamining;Digitalcampus一、引言高校数字化校园数据主要存储在关系型数据库中,这些系统中,大量的数据和数据模型,都是反映历届学生的学习成绩和教师的教学任务以及教学计划。随着高校对决策信息需求的日益广泛、复杂和迫切,这些传统的数据库系统存在的问题也越来越明显。本文利用数据仓库和数据挖掘技术在数字化校园中应用进行了研究。二、数字化校园数据仓库体系结构设计在对数字化校园各个子系统进行深入调研和需求分析的基础上,针对数据仓库的三个基本功能,提出了一个集中式数据仓库(数字化校园数据仓库)、分布式数据库(各个部门数据库)等适合数字化校园的数据仓库体系结构,如图1所示。该系统由五个部分组成(一)数据源来源于操作性数据库,其主要是完成日常业务处理,其数据将成为数据仓库的数据源。(二)多数据源集成将来自于不同数据源(SQL、Oracle等)的数据通过数据转换服务进行导入。(三)中心数据仓库在已有业务系统的基础上,通过数据的抽取、转换、加载,建立数字化校园数据仓库。(四)OLAP分析服务器通过建立OLAP分析服务器,从数据仓库中提取数据,完成数据的统计和分析。(五)决策支持工具是面向用户的数据需求的前端服务,支持各种OLAP和DM操作。三、数字化校园数据仓库逻辑模型设计在学生等级事实维表中存储七个维表,通过这几个维表的主键,将事实表和维表连接在一起,形成星型模式用二维关系表示数据的多维概念建立星型模型后,通过维表的主键,对事实表和每一个维作连接操作,其模型如图2如示。四、数据挖掘算法在数字化校园中应用分析针对学生等级多维数据集,把平均成绩、借书次数、平均消费、学生等级、家庭出身既作为输入列又作为可预测列,分析处理后可得到如图3所示学生等级一层决策树模型。在学生等级表中,所有事例为4925,其中学生等级为C的事例最多,为1726例,可能性为35.04%;学生等级表现为A的有495例,可能性为10.05%;学生等级表现为B的有1478例,可能性为30.01%;学生等级表现为D的有983例,可能性为19.95%;还有学生等级表现为E的极差事例有243例,可能性为4.93%。在这一事例图中,我们可以看到PJCJ是决定XSDJ最重要的因素,在高校教育中,抓学生成绩才是教学的关键所在。五、结束语采用DW+DM框架结构的决策支持系统是一种比较理想和完善的架构,该系统功能齐全、性能稳定,能对数据进行快速和准确的分析,从而帮助高校管理者做出更好的决策,提高高校管理效率,对数字化校园的利用具有一定的实用性和参考价值。参考文献1ZhaoHuiTang,JamieMaclennan.数据挖掘原理与应用M.邝祝芳,焦贤龙,高升.北京清华大学出版社,200725-262木根.数据仓库技术与实现M.北京电子工业出版社,20023王艳萍,常贤发.基于数据仓库的数字化校园的设计J.电脑知识与技术,2009,124薛红,王敏.基于DW+OLAP+DM的超市销售决策支持系统J.计算机工程,2007,33145王成,李民赞.基于数据仓库和数据挖掘技术的温室决策支持系统J.农业工程学报,2008,11作者简介王艳萍(1982-),女,硕士研究生,河源职业技术学院教师,研究方向为计算机应用技术。
简介:本文首先讨论了数据挖掘技术,给出了一种企业决策系统。并就决策系统的构成、流程和采用的数据挖掘技术进行了探讨。关键词数据挖掘;数据仓库;企业决策系统中图分类号N37文献标识码A文章编号1007-9599(2010)04-0000-01ResearchofDataMiningTechnologyinBusinessDecision-makingSystemShiDongsheng(InnerMongoliaUniversity,Information&EngineeringTechnologyCollege,InnerMongolia,Baotou014010,China)AbstractThispaperdiscussesdataminingtechnology,presentsabusinessdecisionsystem.Decision-makingsystemoncomposition,processanduseofdataminingtechniquesarediscussed.KeywordsDatamining;Datawarehouse;Businessdecision-makingsystem随着计算机管理信息系统的飞速发展和广泛应用,企业生产经营的自动化水平不断提高,大大提高了工作效率。但企业业务系统运行所产生的大量原始数据是企业生产经营活动的真实记录,不能为本企业加以有效的统计、分析及评估,无法将这些数据转换成企业有用的信息、为企业战略决策提供参考和支持。数据挖掘正是在这样的应用需求环境下产生并迅速发展起来的,它的出现为智能地把海量数据转化为有用的信息和知识提供了新的思路和手段,设计开发基于数据挖掘的企业决策系统是合理解决这一问题,提升企业综合竞争力的最佳对策。一、数据挖掘技术数据挖掘,是指从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程。它是数据库研究中的一个新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术,把人们对数据的应用从低层次的查询,提升到从数据中挖掘知识,提供决策支持的层级。数据挖掘一般由数据准备、挖掘操作、结果表达和解释三个主要阶段组成。在数据准备阶段应集成多个运作数据源中的数据,解决语义模糊性、处理遗漏数据、清洗脏数据。挖掘阶段是一个假设产生、合成、修正和验证传播的过程,也是上述三个阶段的核心。结果表达和解释阶段根据最终用户的决策目的把提取的有用信息正确地表达出来。数据挖掘的方法和技术可大致划分为三类统计分析、知识发现、可视化技术等。统计分析用于检查异常形式的数据,然后利用统计模型和数学模型来解释这些数据,统计分析方法是目前最成熟的数据挖掘工具。而知识发现则着眼于发现大量数据记录中潜在的有用信息或新的知识,属于所谓“发现驱动”的数据挖掘技术途经。知识发现常用的方法有人工神经网络、决策树、遗传算法、模糊计算或模糊推理等。数据质量、可视化数据的能力、极大数据库尺寸、数据挖掘者的技能、数据的粒度都是影响知识发现方法的重要因素。可视化技术则采用直观的图形方式将信息模式、数据的关联或趋势呈现给决策者,决策者可以通过可视化技术交互式地分析数据关系。二、基于数据挖掘的企业决策系统数据挖掘面对的是经初步加工的数据,使得数据挖掘更专注于知识的发现;而数据仓库用于完成数据的收集、集成、存储、管理等工作,两者必须有机结合起来使用。基于数据挖掘的企业决策系统主要由数据库、数据仓库、数据仓库管理模块、知识库、知识发现模块、数据挖掘工具、人机交互模块构成(如下图所示)。系统的输入主要源于经过初步处理的数据库数据以及存储在知识库中的历史知识和经验;数据仓库管理模块用于数据仓库的建立以及数据的筛选操作;知识发现模块控制并管理知识发现过程,它将数据的输入和知识库中的信息用于驱动数据选择过程、知识发现引擎过程和发现的评价过程;人机交互模块通过自然语言处理和语义查询在用户和系统之间提供相互联系的集成界面。数据挖掘工具用于完成实际决策问题所需的各种查询检索工具、多维数据的联机分析分析工具等,以实现决策支持系统的各种要求。数据挖掘主要提供了以下几种模式(一)分类模式根据数据的值从树根开始搜索,沿着数据满足的分支往上走,直到树叶确定类别。(二)回归模式回归模式与分类模式相似,区别在于分类模式的预测值是离散的,而回归模式的预测值是连续的。(三)时间序列模式根据数据随时间变化的趋势预测将来的值。只有充分考虑时间因素,利用现有数据随时间变化的一系列的值,才能更好地预测将来的值。(四)聚类模式把数据划分到不同的组,组之间的差别尽可能大,组内的差别尽可能小,进行聚类前并不知道将要划分成几个组和什么样的组。(五)关联模式利用数据项之间的关联规则。(刘)和概念描述和比较操作把具有共同性的数据做汇总操作,从而得到一个具有一般性的规则描述。在实际应用中,可以根据具体情况采用不同模式组合,达到最优化的数据挖掘方式。在用户使用该系统时,首先需要通过分析决策需求,描述和表示决策的问题,确定数据来源,即可建立数据仓库;其次针对所要发现的任务的所属类别,设计或选择上述有效的数据挖掘算法并加以实现,从平凡的历史数据中提出综合数据,独立存储为库文件,作为更高一层数据挖掘对象;同时测试以评价所发现的知识,对知识进行一致性、效用性处理。最后根据最终用户的要求,建立适用于决策支持的数据仓库的集成界面和应用程序,使用户能在决策支持中运用所发现的知识。对于该系统的执行,每个步骤包含了循环和反复,可以对发现的知识不断求精、深化,并使其易于理解。三、结论总之,数据挖掘技术可以使其应用者由原来通过定期的、固定的报表进行定性的分析而上升到实时的、动态的各种形式的图表进行定量的分析,从而可以敏感地发现市场的微小变化并迅速做出反应,为企业在激烈的市场竞争中立于不败之地提供了强有力的工具。参考文献1范明,孟小峰.anjiawei,etal.数据挖掘概念与技术M.北京机械工业出版社,20072李捷.基于数据仓库和数据挖掘的企业决策支持系统研究J.科技经济市场,2006,73范丽霞,张雪兰.利用数据仓库和数据挖掘实现电信决策支持系统J.计算机与现代化,2005,8
简介:随着信息科学技术的不断发展,越来越多的设备可以产生数据,而硬件存储设备却越来越便宜,我们因此步入了数据爆炸式增长的时代。大数据如雨后春笋般地出现在各行各业中,车载导航公司也迎来了大数据。大数据是机遇,同时也是挑战,如何从导航数据中获取价值成了车载导航软件公司的难题。而与此同时,中国车险市场随着我国汽车市场发展不断扩大,竞争也越来越激烈。车险行业的竞争主要是服务于价格的竞争,归根到底是风险评估能力的竞争,而目前的广泛应用的车险定价策略存在难以取分投保人真实风险的不足。本文结合车险领域风险评估的情况以及车载导航大数据的特点,提出通过对车载导航大数据的分析,对用户的统计驾驶情况评估,并将结果应用到车险行业。
简介:当你的SQLServer数据库系统运行缓慢的时候,你或许多多少少知道可以使用SQLServerProfiler(中文叫SQL事件探查器)工具来进行跟踪和分析。是的,Profiler可以用来捕获发送到SQLServer的所有语句以及语句的执行性能相关数据(如语句的read/writes页面数目,CPU的使用量,以及语句的duration等)以供以后分析。但本文并不介绍如何使用Profiler工具,而是将介绍如何使用read80trace(有关该工具见后面介绍)工具结合自定义的存储过程来提纲挈领地分析Profiler捕获的Trace文件,