p2p收索引擎 文献综述 联系客服

发布时间 : 星期六 文章p2p收索引擎 文献综述更新完毕开始阅读55adacfeee06eff9aff80731

重庆理工大学毕业论文 文献综述

中文搜索引擎技术与P2P技术简介

李瑞敏

(一)中文搜索引擎技术概述

互联网在近年飞速发展,互联网已经深入人们的生活,并慢慢改变人们的生活,从“网络广告”到“拇指经济“,从“网络游戏”到“搜索力经济”。目前搜索引擎已经成为互联网行业中最受人们关注的焦点。搜索引擎的基础技术是全文检索,20世纪60年代,国外就已经开始对全文检索技术进行研究。其核心是对文本信息的索引和检索,一般用于企事业单位。随着互联网的发展,搜索引擎在全文检索技术上发展起来,并得到了广泛的应用。

搜索引擎结合互联网发展的特点形成了三种典型的类型:

(1)全文检索搜索引擎:

国外具代表性的有Google、yahoo、AllTheWeb等,国内著名的有百度。它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户,也是目前常规意义上的搜索引擎。

(2)目录搜索引擎:

目录索引虽然有搜索功能,但在严格意义上算不上是真正的搜索引擎,仅仅是按目录分类的网站链接列表而己。用户完全可以不用进行关键词查询,仅靠分类目录也可找到需要的信息。国外比较著名的目录索引搜索引擎有Yahoo、Open Directory Project、LookSmart等。国内的搜狐、新浪、网易搜索也都具有这一类功能。

(3)元搜索引擎:

元搜索引擎在接受用户查询请求时,同时在其它多个引擎上进行搜索,并将结果返回给用户。著名的元搜索引擎有Dogpile、Vivisimo等。在搜索结果排列方面,有的直接按来源引擎排列搜索结果,如Dogpile,有的则按自定的规则将结果重新排列组合如Dogpile。其他的像新浪、网易、等搜索引擎都是调用其它全文检索搜索引擎或者在其搜索结果的基础上做了二次开发。

中文搜索引擎基本技术分析搜索引擎的门槛主要是技术门槛包括网页数据的快速采集、海量数据的索引和存储、搜索结果的相关性排序搜索效率的毫秒级要求、分布式处理和负载均衡、自然语言的理解技术等等这些都是搜索引擎的门槛。

1

重庆理工大学毕业论文 文献综述

搜索引擎可以主要划分为如下几大基础技术模块: (1)抓取互联网数据

通过自动抓取网页的蜘蛛程序广度遍历整个互联网,并且保存访问过的网站页面以供程序分析。

(2)建立索引数据库

由索引系统对收集到的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。

(3)搜索索引数据库

当用户输入关键词搜索后,分解搜索请求,由搜索系统程序从网页索引数据库中找到符合该关键词的所有相关网页。

(4)搜索结果的排序

所有相关网页针对该关键词的相关信息在索引库中都有记录,只需综合相关信息和网页级别形成相关度数值,然后进行排序,相关度越高排名越靠前。最后由页面生成系统将搜索结果的链接地址和页面内容摘要等内容组织起来返回给用户。 主要的一些技术:

网络蜘蛛:通过网页的链接地址来寻找网页。从网站某一个页面通常是首页开始读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

在抓取网页的时候网络蜘蛛一般有两种策略:广度优先和深度优先。广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页,然后再选择其中的一个链接网页继续抓取在此网页中链接的所有网页。这是最常用的方式。因为这个方法可以让网络蜘蛛并行处理提高其抓取速度。深度优先是指网络蜘蛛会从起始页开始一个链接一个链接跟踪下去处理完这条线路之后,再转入下一个起始页继续跟踪链接。

排序技术:在搜索引擎的数据库中普通一个搜索往往有上百万条结果,如何按照某种方式对结果排序,最终展示给访问者,是搜索引擎中一个基本而关键的技术。排序技术的好坏直接影响到搜索引擎的性能优劣。经过多年的发展目前已经有多种排序技术PageRank技术、超链分析技术、HillTop技术、锚文本、页面版式。

2

重庆理工大学毕业论文 文献综述

中文分词技术是关键技术:直接影响相关排序技术的准确的程度,现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

(1)基于字符串匹配的分词方法

这种方法又叫做机械分词方法。它是按照一定的策略将待分析的汉字串与一个“充分大”的机器词典中的词条进行匹配。若在词典中找到某个字符串,则匹配成功识别出一个词。按照扫描方向的不同串匹配,分词方法可以分为正向匹配和逆向匹配。按照不同长度优先匹配的情况,可以分为最大最长匹配和最小最短匹配。按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。

对于机械分词,可以建立起一般的格式化模型。其中典型的代表是分词模型和基于图论的分词模型。分词模型提出较早目前已经被普遍的的认同和使用,后者提出时间较晚,它的核心是将图论思想引入分词中。

(2) 基于理解的分词方法:

这种分词方法是通过让计算机模拟人对句子的理解达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析利用句法信息和语义信息来处理歧义现象。它通常包括三个部分分词子系统、句法语义子系统、总控部分。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性难以将各种语言信息组织成机器可直接读取的形式。因此目前基于理解的分词系统还处在试验阶段。 (3) 基于统计的分词方法

由于汉语词的定义的模糊性,有些学者利用统计方法,通过对大规模真实文本的统计,让计算机自己判断什么是词,这样就产生了基于统计的分词方法,又称为无词典分词。这类方法分词的依据和主要思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。 (二)P2P网络拓扑结构

(1)P2P模式与C/S模型的比较与区别

目前许多搜索引擎从体系结构上看是集中式的,即从Internet上取回页面,经

3

重庆理工大学毕业论文 文献综述

过分析、处理后将所有的索引信息形成索引数据库集中存储在某个站点,用户通过访问该站点实现查询。这种架构的搜索引擎服务器负载过大,一旦大量用户同时向服务器请求检索服务,搜索引擎不可能及时响应,也会造成网络堵塞。由于Internet网络庞大,分布广泛,所提供的信息浩如烟海,集中式的搜索引擎所能搜索到的信息十分有限,达不到深度与广度的搜索。正因如此,人们纷纷提出建立分布式搜索引擎的策略。

P2P,即英文Peer-to.Peer的缩写,中译为对等互联或点对点技术,其实可以看成是一种对等的网络模型。P2P技术主要指由硬件形成连接后的信息控制技术,其代表形式是软件。P2P不是一个新概念,它其实是互联网整体架构的基础。以前,所有的互联网上的系统都同时具有服务器和客户机的功能,后来发展的那些架构在TCP/IP之上采用了客户机/服务器的结构。但是,相对于整个互联网而言,服务器之间仍然是对等联网的。以Email的处理为例,互联网上并没有一个大型而唯一的邮件服务器来处理所有的Email,而是通过对等联网的邮件服务器相互协作,把Email传送到相应的服务器上去。P2P技术可以让用户可以直接连接到其他用户的计算机,进行文件共享与交换;同时,P2P在深度搜索、分布计算、协同工作等方面也大有用途。

传统的C/S模型网络中客户机与服务机是分开的,是各自独立的计算机。客户端与服务器的角色在模型中是固定不变的。而P2P网络模型是非中心化的,每个节点既是服务器,又是客户端,与集中控制的C/S模型有明显的区别。

P2P使得网络上的沟通变得容易、更直接共享和交互。P2P就是人可以直接连接到其他用户的计算机、交换文件,而不是像过去那样连接到服务器去浏览与下载。P2P另一个重要特点是改变互联网现在的以大网站为中心的状态,并把权力交还给用户。P2P看起来似乎是新技术,但是正如B2C、B2B是将现实世界中很平常的东西移植到互联网上一样,P2P并不是新技术。

基于P2P的分布式中文搜索引擎是将搜索引擎架设在P2P分布式网络结构之上,利用P2P的良好的分布式特性,使搜索引擎从集中式走向分布式,使搜索引擎能更深度、更广度地搜索互联网上的用户可用的信息。

(2) P2P技术的发展

第一代P2P技术的对等网络(Peer to Peer)也称为集中式对等网络(中心化网络模型),它的本质思想是,整个网络结构中不存在中心节点(或中心服务器),在P2P结构中,每一个节点(Peer)大都同时具有信息消费者、信息提供者和信息通讯等三方面的

4