0841207035-《电子政务与数据挖掘》 联系客服

发布时间 : 星期五 文章0841207035-《电子政务与数据挖掘》更新完毕开始阅读03b251697e21af45b307a8f2

研究生课程论文 Course Paper

论文编号 Paper No: 0841207035

撰写日期 Date:2009-10-30

电 子 政 务 与 数 据 挖 掘

E-Government and Data Mining

陈 科

(计算机及信息工程学院 计算机技术 08级 0841207035)

课程名称 Course:现代数据管理技术 Modern Data Management Technologies 课程性质 Course No:研究生专业课 Graduate Course 0705M04 学 分 数 Credits:2 主讲教师 Instructor:毛莺池. Yingchi MAO 开设学院 College:计算机及信息工程学院 Computers & Information Engineering 开设时间 Semester:2008~2009学年第二学期 Autumn, 2009

河 海 大 学

《现代数据管理技术》课程总结报告:电子政务与数据挖掘

电 子 政 务 与 数 据 挖 掘

陈 科 (计算机及信息工程学院 计算机技术 08级 0841207035) Email: 81052661@163.com 摘 要: 电子政务发展非常迅速,使得如何分析和利用政务信息成为比较重要的问题。本文介绍数据

挖掘技术在电子政务中的如何运用,并肯定了数据挖掘技术成为电子政务的发展趋势。

关键词: 电子政务;数据仓库;数据挖掘

E-Government and Data Mining

Ke Chen (0841207035, College of Computers & Information Engineering, Hohai University, Nanjing, China) Email: 81052661@163.com Abstract: E-government is moving very quickly, making how to analyze and use government information

become more important issues. This article describes the data mining techniques in e-government in how to use and confirmed that data mining technology as e-government trends.

Key words: E-Government; Data Warehousing; Data Mining

1 引言

近年来,电子政务在我国得到了快速的发展,电子政务是一种基于网络,面向政府机关、企业和社会公众的信息服务和信息处理系统。为此,我们利用信息技术生产和搜集数据的能力大幅度提高,成千上万数据库被各级政府、部门开发建设出来,数据量呈指数增长,这种趋势还将持续下去。如何处理大量的、复杂的、历史的政务数据分析和利用好,成为电子政务的又一趋势。

2 概念简介

2.1 技术简介

2.1.1 数据挖掘

数据挖掘,又称数据库中的知识发现(Knowledge Discovery in Database ,KDD),是指从大型数据库或数据仓库 中提取隐含的、未知的、非平凡的及有潜在应用价值的信息或模式,他是数据库研究中的一个很有应用价值的新领域,融合了数据库、人工智能、机器学习、统计学等多个领域的理论和技术。数据挖掘工具能够对将来的趋势和行为进行预测,从而很好地支持人们的决策。数据挖掘的任务是从数据 中发现模式。模式有很多种 ,按功能可分 2大类 :预测型 (Predictive)模式和描述型 (Descriptive) 模式。预测型模式是可以根据数据项的值精确确定某种结果的模式,挖掘预测型模式所使用的数据都可以明确知道结果。描述型模式是对数据中存在的规则做一种描述 ,或者根据数据的相似性把数据分组,他不能直接用于预测。在实际应用中, 模式往往根据其实际作用细分为 以下6种:分类模式 、回归模式、时间序列模式、聚类模式、关联模式和序列模式 。在解决实际问题时,经常要同时使用多种模式,分类模式和回归模式是

0841207035 Date: 2009-10-30 Page 2 of 7

《现代数据管理技术》课程总结报告:电子政务与数据挖掘

其中使用最普遍的2种模式。数据挖掘的全过程定义描述如图所示。

整个知识挖掘过程是由若干挖掘步骤组成,而数据挖掘仅是其中的一个主要步骤。整个知识挖掘的主要步骤有:

数据清洗,其作用就是清除数据噪声和与挖掘主题明显无关的数据; 数据集成,其作用就是将来自多数据源中的相关数据组合到一起;

数据转换,其作用就是将数据转换为易于进行数据挖掘的数据存储形式;

数据挖掘,它是知识挖掘的一个基本步骤,其作用就是利用智能方法挖掘数据模式或规律知识;

模式评估,其作用就是根据一定评估标准从挖掘结果筛选出有意义的模式知识; 知识表示,其作用就是利用可视化和知识表达技术,向用户展示所挖掘出的相关知识。

2.1.2 数据仓库

数据仓库概念始于2 0世纪8 0年代中期,随着人们对大型数据系统研究、管理、维护等方面的深刻认识和不断完善,在总结、丰富、集中多种企业信息的经验之后,为数据仓库给出了更为精确的定义,即“数据仓库是在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合”。数据仓库并没有严格的数学理论基础,也没有成熟的基本模式,且更偏向于工程,具有强烈的工程性。

数据仓库技术的基本特征归纳为如下三个方面:

(1)存储面向管理应用与综合分析的集成化和综合性的信息,从历史的角度描述系统结构和状态的变化,要求采用能够反映时间维特征的数据结构。

(2)基于传统的面向业务(operational)的数据库或外界数据库作为数据源,经过提炼、加工、汇总和归一化整理(consolidation),生成符合数据应用语义规范要求的数据集合。

(3)能够支持多种复杂的数据应用和综合性的管理决策。

数据仓库是企业范围内数据的处理过程,它将分散的企业内各种跨平台的数据经过重新组合和加工,构成面向决策的数据仓库。最终用户可以在数据仓库的基础上进行数据的深层挖掘、多维数据分析、动态查询和动态报表等。数据仓库是基于决策的,它为企业决策者方便地分析企业发展状况,进而做出企业决策提供有效的途径。从数据仓库技术的角度看,数据仓库提供了多数据源上的一个统一和数据平台(见图3:

数据仓库基本体系结构)[6],图中给出了一个典型的数据仓库系统结构。其中:

0841207035 Date: 2009-10-30 Page 3 of 7

《现代数据管理技术》课程总结报告:电子政务与数据挖掘

数据仓库基本体系结构

(1)Info Source:信息源,不但包含那些常见的数据库,也包括文件、HTML文件、知识库、遗留系统等各种信息源。

(2)Monitor:抽取器,连接着每个信息源,并负责把信息从原信息源的数据格式转换成数据仓库使用的数据格式和数据模型,自动监测信息源中数据的变化并把这些变化上报给集成器。

(3)Integrator:集成器,对新的或变化的信息进行过滤、总结,或者和其他信息源的信息进行合并,再安置到数据仓库中。为了把新信息准确地集成到数据仓库中,集成器可能还要从原来或相关的其他信息源中获取进一步的信息。

(4)DataWarehouse:数据仓库,它本身可以使用现在流行的、或者是特别设计的数据库管理系统。实际上,为了获得期望的性能,常常需要信息的并行和分布处理。

(5)Client Application:客户端应用,面向各类不同的最终用户对数据仓库进行访问,主要由查询生成工具、多维分析工具和数据挖掘工具等工具集组成,以实现决策支持系统的各种要求。

在实际应用中应认识到数据仓库是存储数据的一种组织形式,它从传统数据库中获得原始数据,先按辅助决策的主题要求形成当前基本数据层,再按综合决策的要求形成综合数据层(又可分为轻度综合层和高度综合层)。随着时间的推移,由时间控制机制将当前基本数据层转为历史数据层。可见数据仓库中逻辑结构数据由3层到4层数据组成,它们均由元数据(Meta Data)组织而成。数据仓库中数据的物理存储形式有多维数据库组织形式(空间超立方体形式)和基于关系数据库组织形式(由关系型事实表和维表组成)。一个数据仓库系统(DWS)由数据仓库、仓库管理和分析工具三部分组成。

源数据:数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。

仓库管理(后端加工处理):在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理和转换过程,最后划分维数及确定数据仓库的物理存储结构。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信息等。仓库管理包括对数据的安全、归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。

分析工具(前端服务):用于完成实际决策问题所需的各种查询检索工具、多维数据的OLAP分析工具、数据挖掘DM工具等,以实现决策支持系统的各种要求。

2.1.3 联机分析处理

联机分析处理 OLAP (On Line Analytical Processing)的概念最早是由关系数据库之父E.F.C odd于1993年提出的。当时,C odd认为联机事务处理(OLTP)已不能满足终端用户对数据库查询分析的需要 , SQL 对大数据库进行的简单查询也不能满足用户分

0841207035 Date: 2009-10-30 Page 4 of 7