瀹屾暣word鐗?鏁版嵁浠撳簱涓庢暟鎹寲鎺樼煡璇嗘荤粨,鎺ㄨ崘鏂囨。 - 鐧惧害鏂囧簱 联系客服

发布时间 : 星期二 文章瀹屾暣word鐗?鏁版嵁浠撳簱涓庢暟鎹寲鎺樼煡璇嗘荤粨,鎺ㄨ崘鏂囨。 - 鐧惧害鏂囧簱更新完毕开始阅读ab37640f2c3f5727a5e9856a561252d380eb2015

4. 人工神经网络和遗传基因算法

人工神经网络是一个迅速发展的前沿研究领域,对计算机科学 人工智能、认知科学以及信息技术等产生了重要而深远的影响,而它在数据挖掘中也扮演着非常重要的角色。人工神经网络可通过示例学习,形成描述复杂非线性系统的非线性函数,这实际上是得到了客观规律的定量描述,有了这个基础,预测的难题就会迎刃而解。目前在数据挖掘中,最常使用的两种神经网络是BP网络和RBF网络 不过,由于人工神经网络还是一个新兴学科,一些重要的理论问题尚未解决。

5. 规则归纳

规则归纳相对来讲是数据挖掘特有的技术。它指的是在大型数据库或数据仓库中搜索和挖掘以往不知道的规则和规律,这大致包括以下几种形式:IF … THEN … 6. 可视化技术

可视化技术是数据挖掘不可忽视的辅助技术。数据挖掘通常会涉及较复杂的数学方法和信息技术,为了方便用户理解和使用这类技术,必须借助图形、图象、动画等手段形象地指导操作、引导挖掘和表达结果等,否则很难推广普及数据挖掘技术。

六、文本挖掘

1.文本挖掘的概念

文本数据挖掘(Text Mining)是指从文本数据中抽取有价值的信息和知识的计算机处理技术。顾名思义,文本数据挖掘是从文本中进行数据挖掘(Data Mining)。从这个意义上讲,文本数据挖掘是数据挖掘的一个分支。 2.文本挖掘方法

(1).文本分类

文本分类是一种典型的机器学习方法,一般分为训练和分类两个阶段。

(2).文本聚类

文本聚类是一种典型的无监督式机器学习方法,聚类方法的选择取决于数据类型。

(3).信息抽取 (4).摘要 (5).压缩

其中,文本分类和聚类是两种最重要最基本的挖掘功能。 3.挖掘工具

(1).IBM DB2 intelligent Miner (2).SAS text miner (3).SPSS Text Mining

(4).DMC TextFilter(纯文本抽出通用程序库) 4.应用

文本挖掘传统商业方面的应用主要有,企业竞争情报、CRM、电子商务网站、搜索引擎,现在已扩展到医疗、保险和咨询行业。

七、Web挖掘

1.Web挖掘与Web信息检索

1.1 Web挖掘的定义

Web挖掘是一项综合技术,涉及Web、数据挖掘、计算机语言学、信息学等多个领域.不同研究者从自身的领域出发,对Web挖掘的含义有着不同的理解, 项目开发也各有其侧重点.

1.2 Web上的挖掘与信息检索

Web上的挖掘和信息检索是两种不同的技术,其区别主要表现在以下几个方面.

(1) 方法论不同. 信息检索是目标驱动的,用户需要明确提出查询要求;而挖掘是机会主义的,其结果独立于用户的信息需求,也是用户所无法预知的; (2) 着眼点不同. 信息检索着重于文档中显式存储的字词和链接;而挖掘试图更多地理解其内容和结构;

(3) 目的不同. 信息检索的目的在于帮助用户发现资源,即从大量文档中找到满足其查询请求的文档子集;而挖掘是为了揭示文档中隐含的知识;

(4) 评价方法不同. 信息检索使用精度(precision)和召回率(recall)来评价其性能,要求返回尽可能多的相关文档,同时不相关的文档尽可能少.而挖掘采用收益 (gain)、置信度(certainty)、简洁性(simplicity)等来衡量所发现知识的有效性、可用性和可理解性;

(5) 使用场合不同. 有时信息检索系统返回太多的结果以致用户无法一一浏览,有时用户没有明确的信息需求,有时用户希望发现文档集合中所具有的结构、趋势、含义,在这些场合下,就需要使用挖掘技术.

尽管Web挖掘是比信息检索层次更高的技术,但它并不是用来取代信息检索技术,二者是相辅相成的.一方面,这两种技术各有所长,有各自适用的场合;另一 方面,我们可以利用Web挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平.

2.Web挖掘的任务

2.1Web挖掘任务的分类

Web上信息的多样性决定了Web挖掘任务的多样性.按照处理对象的不同,我们将Web挖掘分为两大类:内容挖掘和结构挖掘.前者指的是从Web文档的 内容信息中抽取知识,而后者指的是从Web文档的结构信息中推导知识.Web内容挖掘又分为

对文本文档(包括text,HTML等格式)和多媒体文档(包 括image,audio,video等媒体类型)的挖掘.Web结构挖掘不仅仅局限于文档之间的超链结构,还包括文档内部的结构、文档URL中的目录路 径结构等.如图2所示.在本文中,我们仅对Web上的文本挖掘和结构挖掘加以讨论,下文中提及的“文档”指的是文本文档,不包括多媒体文档.有关Web上 的多媒体挖掘。

2.2Web文本挖掘

Web文本挖掘可以对Web上大量文档集合的内容进行总结、分类、聚类、关联分析,以及利用Web文档进行趋势预测等.

文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释.这样,用户不需要浏览全文就可以了解文档或文档集合的总体内容.文本总结在 有些场合十分有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要.目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行.

文本分类是指按照预先定义 的主题类别,为文档集合中的每个文档确定一个类别.这样,用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易

文本聚类与分类的不同之处 在于,聚类没有预先定义好的主题类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能地大,而不同簇间的相似度尽可能地小.

关联分析是指从文档集合中找出不同词语之间的关系.

分布分析与趋势预测是指通过对Web文档的分析,得到特定数据在某个历史时刻的情况或将来的取值趋势

需要说明的是,Web上的文本挖掘和通常的平面文本挖掘的功能和方法比较类似,但是,Web文档中的标记,例如〈Title〉,〈Heading〉等蕴含了额外的信息,我们可以利用这些信息来提高Web文本挖掘的性能.

2.3 Web结构挖掘