自动分类在搜索引擎性能优化中的应用 联系客服

发布时间 : 星期四 文章自动分类在搜索引擎性能优化中的应用更新完毕开始阅读904c266faf1ffc4ffe47ac7d

3.1 WWlib自动归类系统

WWlib(http://www.scit.wlv.ac.uk/wwlib/)是伍尔弗汉普顿网络图书馆的简称

(Wolverhampton Web Library),它是使用了自动归类技术的网络信息检索系统。它的主要组成部分如下[14-15]:

(1)蜘蛛:任务是自动从网络上抓取网页。

(2)索引器:它接收蜘蛛抓回来的网页并在本地服务器上储存一个副本,给网页一个唯一的索取号,同时创建一个新的元数据模板,将本地的副本分配给分析器,建造和增加分类器的元数据模板。

(3)分析器:对嵌入网页中的超链接进行分析。如果发现是有效的超链接,就将它的网址传递给索引器并检查它是否属于英国。

(4)分类器:在对索引网页进行分析的同时给出杜威十进分类法分类号。

(5)构建器:分析索引器提供的网页及其元数据,建立索引数据库,确定索引号和关键词之间的对应关系,使得使用索引号就可以迅速获得相应的关键词。

(6)搜索器:接受用户的检索提问,在构建器的索引数据库中进行查询,用得出的索取号获得相应的元数据和本地副本,使用以上的信息得到一个详细的结果,并按相关度排列检索结果。

WWlib中分类器对网页的处理方法如下:首先,对网页进行自动标引,对网页中的语词根据它们的词频和网页中出现的位置赋予权重。然后将处理后得到的语词集合与杜威十进分类法分类表中的每一个款目进行比较。每个款目包括它们的分类号、一长串关键词和它们的同义词。从一级类目开始比较,直到出现比较显著的匹配值为止,此时将该网页归入此类。匹配值是在综合考虑到语词的相似度以及文档的长短等因素之后给出的。

WWlib提供的检索途径有关键词检索、分类号检索、浏览类目下收录的网页等。WWlib也支持布尔逻辑检索和截词检索。检索结果分为两行,第一行为分类号、网页标题,第二行是网页内容摘要。WWlib主要的问题是数据库规模太小,笔者在2003年4月18日查看时其款目只有4874个。但是它的方法对于今后大规模网页的自动分类仍然有一定的借鉴意义。 3.2 Grouper自动聚类系统

Grouper是Oren Zamir和Oren Etzioni 研制的一个自动聚类系统,它的主要作用是对Huskysearch(这个是他们开发的一个元搜索引擎)返回的结果进行自动聚类。他们在Grouper: A dynamic clustering interface to web search results[16]一文中详细描述了它的原理和功能,很遗憾的是随着Oren Zamir和Oren Etzioni的毕业离校,这两个系统也停止了对外服务,但是Grouper还是具有很大的参考价值。

Grouper采用的是一种叫做后缀树聚类(Suffix Tree Clustering)的算法(下文简称STC)。STC是一种线性时间聚类算法,根据待聚类网页中的相似短语进行聚类。这里所说的短语就是指几个有序的词。此算法可以分为三个步骤。

(1)网页“清洗”。这一步骤可以看作是网页特征的抽取。它对代表网页特征的字符串进行过滤,标明各句之间的间隔,去掉不是文字的标记符号(如HTML标记、大部分的标点)。

(2)确定基本聚类串。基本聚类串是一些具有共同短语网页的集合。它是在对网页特征进行抽取的同时使用STC算法进行计算后得到的。对于每一个基本聚类串,根据它包含的网页特征的数量以及组成短语的词的个数赋予一定的权值。但是,在停用词表中出现的词或者过于高频词或者低频词对基本聚类串的权值没有贡献。

(3)合并基本聚类串为最后的结果。其主要的依据是同一聚类中的网页在语义上的相关性,允许交叉聚类,也就是一篇网页可以在多个聚类中出现。

STC算法的主要特点有:(1)它是一种模糊聚类方法,允许交叉聚类。(2)使用短语而不是词去判断网页的相似性,同时也考虑这些短语出现的位置和顺序。它用共同短语来揭示聚类的内容,对用户而言这个也是一个有丰富信息量的摘要。(3)速度快,它是对元搜索引擎的结果进行聚类,在元搜索引擎返回结果的同时就开始工作,通常情况下在接收到最后一篇网页之后就可以显示出结果,不会产生明显的迟滞现象。

Grouper以表格形式来显示聚类结果。每一类用一行表示。首先是该类的大小,用它所包括的网页数量来标识;其次是共同短语,就是在该类中出现的高频词,同时用数字表示出该共同短语在此类中出现的百分比;最后是三个该类实例网页的标题。如果用户对某一类有兴趣,想深入看下去,可以点击“查看结果”这个链接,进入的页面就将该类中所有网页的标题都列出来了,点击网页的标题就可以看到具体的页面。

Grouper还有一个相关反馈的功能,可以根据某类来对检索策略进行修改,也就是利用该类中的共同词语来重新检索。 3.3 Vivísimo自动聚类系统

Vivísimo(Http://vivisimo.com)是个元搜索引擎,它调用AltaVista、MSN、 Netscape、 Lycos、 Looksmart、 FindWhat等搜索引擎的结果(用户在它的高级检索中可以选择具体调用那一个或者那一些搜索引擎),对它们进行自动聚类后返回给用户。Vivísimo已经连续两年(2002年和2003年)被搜索引擎观察(Search Engine Watch)的专家评为“最好的元搜索引擎(Best Meta-Search Engine)”,英国物理学会出版社(Institute of Physics Publishing)也选择了Vivísimo来提供检索结果的自动聚类,以加强他们的电子期刊服务工作。[17]

Vivísimo基于的原理是一种叫做准确描述所有配对(concise all pairs profiling)(简称为CAPP)的方法。[18-19]这种方法着眼于形成可描述的聚类。它的基本原理是将所有的类别成

对的进行比较,找出能够将每一对类别区分开来的特征,然后对那些特征进行组织,形成最后的描述,保证每一对至少有一个特征能够将它和其他对区别出来。

Vivísimo自动聚类所依据的是搜索引擎返回的网页的网址、标题和简单描述。而不是整个网页。我们可以通过下图来看Vivísimo的一些特点。

从图中我们可以清楚的看到Vivísimo采用类似于Windows资源管理器的界面来显示结果,非常直观。Vivísimo用一个词来对该类进行描述,点词语左边的“+”号就可以展开下级类目(如果“+”号是灰色的话就表示没有下位类了)。Vivísimo也允许交叉聚类。甚至有类目互为上下位类。例如Giant Panda(图中的第一个类目)的下位类是Panda Bear,Panda Cam,National Zoo,Bamboo等,而与图中的第三个类(与第一个类目应该是同一级的就是Panda Bear,它的下位类是Tare and Panda,Panda Bear′s Playhouse,Giant Panda等。

尽管Vivísimo现在的性能不是令人很满意,但是毕竟它是少数几个投入商业营运并且取得不错口碑的自动聚类系统。如果不断对自动聚类系统进行改进,提高它的性能,自动聚类系统就可能有广阔的前景。

4 自动分类在搜索引擎中应用的策略分析

4.1自动聚类和自动归类的应用

从上文的论述中,我们可以知道,就目前的情况而言,自动聚类在搜索引擎中的实现要比自动归类容易一些,聚类的效果也比较显著。因此,可以考虑在搜索引擎中首先采用自动聚类。

如果要使用自动归类的话,首先就要考虑使用什么分类法。现在使用的分类法中既有传统的图书馆分类法,也有适应网络环境而生的网络分类法。二者各有千秋,传统的图书馆分类法系统性强,使用范围广,网络分类法比较灵活。如果条件许可的话,最好是两种类型的分类法都使用。对于熟悉图书馆分类法的用户就提供图书馆分类法的结果,对于一般用户则提供自编的网络分类法。在使用分类法的时侯,还要考虑分类的粗细问题,也就是分到几级类目。对于网页的分类,可能没有必要分得很细。下面主要论述自动聚类实现时涉及到的问题。 4.2应用的时机

应用的时机是指自动聚类是在对网页数据进行索引的时候实施,还是在搜索引擎返回检索结果之后实施。前者可以利用网页的全文,后者一般只是使用网页的网址、标题和摘要等少量信息。一般而言,前者的结果要准确一些,但是综合考虑,后者的精确度虽然不如前者,但是成本比较低,实用性更强。它不需要对网页进行标引等预处理,工作量会大大降低,并且随着技术的发展,结果也会越来越令人满意。对于结果相关性的判断,既有客观因素,也有主观因素。

机器只能够模拟人的思维而不能取代人的活动。自动聚类只是帮助用户进行相关性的判断而已,想靠它一劳永逸的解决相关性判断是不太现实的。 4.3应用的对象

自动聚类可以应用到元搜索引擎或者单个搜索引擎中。单个搜索引擎的覆盖范围有限,且随着网络信息资源的迅速增长而不断下降。所以将自动分类应用于元搜索引擎返回的结果要比应用到单个搜索引擎的效果要明显一些。当然,元搜索引擎的在对调用的搜索引擎进行选择必须要遵循一定的原则,要选取质量比较高的,覆盖面比较广的,力争扩大检全率和检准率。对于单个搜索引擎返回结果,也没有必要全部包括在内,只需要前面的一部分就可以了(例如50条左右)。因为一般情况下,前面的结果与检索要求的相关度要高一些,这样做对于系统的精确性不会有太大程度的影响,但是可以将系统的成本大大降低,实用性更高。 4.4用户界面

用户界面的设计是一个经常被忽略的问题,实际上用户界面的设计对于自动分类系统的使用效果有很大的影响。一个有关这方面的实验就证明了这一点。这个实验是Hao Chen和Susan Dumais完成的[20]。他们对七种检索界面的使用效果做了对比。这七种用户界面是:

(1)悬浮显示摘要的清单式界面(List with hover summary),就是只有当鼠标移到返回的网页的标题时才显示出该网页内容的概要。

(2)内嵌摘要的清单是用户界面(List with summary inline),就是网页的摘要出现在返回网页的标题下面。

(3)显示类名的清单式界面(List with category names),就是在返回网页的标题后面出现其所属的类目名称,同时给出网页的摘要。

(4)悬浮显示摘要的分类界面(Category with hover summary),就是首先给出类目的名称,然后显示出该类目下网页标题,当鼠标移到该标题上的时候显示出该网页的摘要。

(5)内嵌显示摘要的分类界面(Category with summary inline),它与第四种界面基本上一样,除了是将网页的摘要显示在标题下面。

(6)无类名的分类界面(Category with no category names),它将类目的名称和网页的摘要都去掉了。

(7)无网页标题的界面(Category with no page titles),只显示出类目供浏览。 Hao Chen和Susan Dumais的挑选了西雅图地区微软公司的雇员参加这次实验。他们代表着不同年龄、背景、工作和教育水平的人群。每个人的实验都被分为两个部分,每一部分完成15个检索提问。在这两部分中,使用不同的检索界面。在完成检索任务之后,参加者还要填写一份网上调查问卷。整个过程大概需要2个小时。

此次实验的30个检索提问涉及的主题非常广泛,包括运动、电影、旅行、新闻、电脑、汽车和地方事物等等。检索提问难易程度不一,但是在返回的前100个网页中都可以找到答案。

有17个问题的答案出现在返回的前20个网页中,有13个问题的答案出现在返回的第21-100个网页中。为了消除其它因素的影响,Hao Chen和Susan Dumais将每一个检索提问所用的检索词固定下来,并且将结果缓存下来,保证同样的检索提问返回一样的结果。他们还检查了返回网页链接的有效性,这样影响检索效果的因素就只有用户界面了。

在实验过程中,检索者的屏幕会出现三个窗口。顶部的窗口是比较小的控制窗口,它显示检索提问、检索词及计时器和“找到它了”、“放弃此题”这两个按钮。左边窗口出现返回的结果(采用不同的用户界面),用户点击左边窗口中的结果时,右边窗口就显示出相应的网页。当参加者找到答案的时候,就点击控制窗口中的“找到它了”,如果没有找到,可以点击“放弃此题”。定时器每五分钟提醒一次用户是继续此次检索还是进行新的检索。

对于用户界面的评价,采用的是将用户的主观感受和客观结果(包括检索所花费的时间和准确度等)相结合的方式。结果发现所有的分类界面都要比清单式的界面效果好。效果最好的是内嵌显示摘要的分类界面。

Hao Chen和Susan Dumais的实验说明自动分类系统用户界面的设计应该最大限度地帮助用户对返回结果的相关性进行判断。所以,不但要将类名显示出来还应包括类名的说明,使用户能够迅速了解该类的内容,做出相应的判断。类目结构之间的层次也不要过多,太多的话会使得用户在浏览的过程中迷失,感到无所适从。类目之间的排列可以按结果从多到少的顺序排列,同一类目中的网页可以按与该类目之间的紧密程度排列。每个类目中的相关网页给出与检索词内容相关的摘要。

5 结论