数据挖掘作业 联系客服

发布时间 : 星期三 文章数据挖掘作业更新完毕开始阅读ce8c7cfb941ea76e58fa047d

《数据挖掘》作业

第一章 引言 一、填空题

(1)数据库中的知识挖掘(KDD)包括以下七个步骤: 、 、 、 、 、 和

(2) 数据挖掘的性能问题主要包括: 、 和

(3) 当前的数据挖掘研究中,最主要的三个研究方向是: 、 和

(4) 在万维网(WWW)上应用的数据挖掘技术常被称为:

(5) 孤立点是指:

二、单选题

(1)数据挖掘应用和一些常见的数据统计分析系统的最主要区别在于:

A、所涉及的算法的复杂性; B、所涉及的数据量; C、计算结果的表现形式; D、是否使用了人工智能技术 (2)孤立点挖掘适用于下列哪种场合?

A、目标市场分析 B、购物篮分析 C、模式识别 D、信用卡欺诈检测 (3)下列几种数据挖掘功能中,( )被广泛的应用于股票价格走势分析

A. 关联分析 B.分类和预测 C.聚类分析 D. 演变分析 (4)下面的数据挖掘的任务中,( )将决定所使用的数据挖掘功能

A、选择任务相关的数据 B、选择要挖掘的知识类型 C、模式的兴趣度度量 D、模式的可视化表示 (5)下列几种数据挖掘功能中,( )被广泛的用于购物篮分析

A、关联分析 B、分类和预测 C、聚类分析 D、演变分析

(6)根据顾客的收入和职业情况,预测他们在计算机设备上的花费,所使用的相应数据挖掘功能是( )

A.关联分析 B.分类和预测 C. 演变分析 D. 概念描述 (7)帮助市场分析人员从客户的基本信息库中发现不同的客户群,通常所使用的数据挖掘功能是( )

A.关联分析 B.分类和预测 C.聚类分析 D. 孤立点分析 E. 演变分析 (8)假设现在的数据挖掘任务是解析数据库中关于客户的一般特征的描述,通常所使用的数据挖掘功能是( )

A.关联分析 B.分类和预测 C. 孤立点分析 D. 演变分析 E. 概念描述

三、简答题

(1)什么是数据挖掘?

(2)一个典型的数据挖掘系统应该包括哪些组成部分? (3)请简述不同历史时代数据库技术的演化。 (4)请列举数据挖掘应用常见的数据源。(或者说,我们都在什么样的数据上进行数据挖掘) (5)什么是模式兴趣度的客观度量和主观度量?

(6)在哪些情况下,我们认为所挖掘出来的模式是有趣的?

(7)根据挖掘的知识类型,我们可以将数据挖掘系统分为哪些类别?

第二章 数据仓库和数据挖掘的OLAP技术 一、填空题

(1)数据仓库的多维数据模型可以有三种不同的形式,分别是: 、 和

(2)给定基本方体,方体的物化有三种选择: 、 和

(3)著名的数据仓库系统设计师W. H. Inmon认为,数据仓库与其他数据存储系统的区别 的四个特征是: 、 、 和 (4)在数据访问模式上,数据仓库以 为主,而日常应用数据库则以 为主。

(5)数据立方体度量可以根据其所使用的聚集函数分为三类,分别是: 、

和 (6)关于数据仓库的设计,四种不同的视图必须考虑,分别是: 、 、

(7)OLAP服务器的类型主要包括: 、 和 (8)求和函数sum()是一个 的函数。

(9)方体计算的主要挑战是 和 之间的矛盾。

二、单选题

(1)下面的数据操作中,哪些操作不是多维数据模型上的OLAP操作 A、上卷(roll-up) B、选择(select) C、切片(slice) D、转轴(pivot) (2)以下哪个范围是数据仓库的数据库规模的一个合理范围 A、1-100M B、100M-10G C、10-1000G D、100GB-数TB (3)存放最低层汇总的方体称为: A、顶点方体 B、方体的格 C、基本方体 D、维 (4)哪种OLAP操作可以让用户在更高的抽象层,更概化的审视数据?

A、上卷 B、下钻 C、切块 D、转轴 (5)平均值函数avg()属于哪种类型的度量?

A、分布的 B、代数的 C、整体的 D、混合的

三、多选题

(1)OLAP系统和OLTP系统的主要区别包括( )。

A、OLTP系统主要用于管理当前数据,而OLAP系统主要存放的是历史数据; B、在数据的存取上,OLTP系统比OLAP系统有着更多的写操作;

C、对OLTP系统上的数据访问量往往比对OLAP系统的数据访问量要大得多; D、OLAP系统中往往存放的是汇总的数据,而OLTP系统中往往存放详细的数据。 (2)从结构的角度看,数据仓库模型包括以下几类:

A、企业仓库 B、数据集市 C、虚拟仓库 D、信息仓库 (3)数据仓库的三层架构主要包括以下哪三部分?

A、数据源 B、数据仓库服务器 C、OLAP服务器 D、前端工具 (4)以下哪些是数据仓库的主要应用?

A、信息处理 B、互联网搜索 C、分析处理 D、数据挖掘

四、简答题

(1)为什么在进行联机分析处理(OLAP)时,我们需要一个独立的数据仓库,而不是直接在日常操作的数据库上进行。

(2)为什么说数据仓库具有随时间而变化的特征?

(2)试述对于多个异种信息源的集成,为什么许多公司宁愿使用更新驱动的方法(update-driven),而不愿使用查询驱动(query-driven)的方法? (3)请简述几种典型的多维数据的OLAP操作

(5)为什么说相对于日常的应用数据库,数据仓库中的数据更加不容易丢失? (6)假定Big_University的数据仓库包含如下4个维:student, course, semester和instructor;2个度量:count和avg_grade。在最低得到概念层(例如,对于给定的学生、课程、学期和教师的组合),度量avg_grade存放学生的实际成绩。在较高的概念层,avg_grade存放给定组合的平均成绩。

(a) 为数据仓库画出雪花模式图。

(b) 由基本方体[student, course, semester, instructor]开始,为列出Big_University每个学

生的CS课程的平均成绩,应当使用哪些OLAP操作(如,由学期上卷到学年)。 (c) 如果每维有5层(包括all),如student < major < status < university < all, 该数据

方包含多少方体(包含基本方体和顶点方体)?

(7)在数据仓库中,元数据的主要用途包括哪些? (8)数据仓库后端工具和程序包括哪些?

五、计算题 (1)假定基本立方体有三个维A,B,C,其单元数如下:|A|=100,000,|B|=10,000,|C|=1,000,假定分块将每维分成10部分

a. 请指出方体中内存空间需求量最小的块计算次序和内存空间需求量最大的块计算次序; b. 分别求这两个次序下计算二维平面所需要的内存空间的大小。

第三章 数据预处理 一、填空题

(1)进行数据预处理时所使用的主要方法包括: 、 、 和

(2)处理噪声数据的方法主要包括: 、 、 和

(3)模式集成的主要问题包括: 和 (4)数据概化是指: (5)数据压缩可分为: 和 两种类型。

(6)进行数值归约时,三种常用的有参方法是: 、 和

(7)数据离散度的最常用度量是 、 和

二、单选题

(1)数据归约的目的是( )

A、填补数据种的空缺值 B、集成多个数据源的数据 C、得到数据集的压缩表示 D、规范化数据 (2)下面哪种数据预处理技术可以用来平滑数据,消除数据噪声?

A.数据清理 B.数据集成 C.数据变换 D.数据归约 (3)进行数据规范化的目的是( )

A.去掉数据中的噪声 B.对数据进行汇总和聚集

C.使用概念分层,用高层次概念替换低层次“原始”数据 D.将属性按比例缩放,使之落入一个小的特定区间 (4)数据的噪声是指( )

A、孤立点 B、空缺值 C、测量变量中的随即错误或偏差 D、数据变换引起的错误 (5)那种数据变换的方法将数据沿概念分层向上汇总

A、平滑 B、聚集 C、数据概化 D、规范化 (6)( )通过将属性域划分为区间,从而减少给定连续值的个数。 A.概念分层 B.离散化 C.分箱 D. 直方图

三、多选题

(1)下面哪些问题是我们进行数据预处理的原因?

A.数据中的空缺值 B.噪声数据 C.数据中的不一致性 D.数据中的概念分层 (2)下面的度量中,哪些是数据离散度的度量?

A.中位数 B.标准差 C.模 D.中间四分位数区间 (3)数据清理的目的是处理数据中的( )

A、空缺值 B、噪声数据 C、不一致数据 D、敏感数据 (4)下列哪些是数据变换可能涉及的内容?

A、数据压缩 B、数据概化 C、维归约 D、规范化 (5)以下哪些原因可能引起空缺值

A、设备异常