搜索引擎语义排序的设计与实现论文 联系客服

发布时间 : 星期二 文章搜索引擎语义排序的设计与实现论文更新完毕开始阅读2108e37aa7c30c22590102020740be1e650eccdf

目录

1 引言 ....................................................................................................................... 1III 2 课题背景 ................................................................................................................... 2 2.1搜索引擎的概念 ..................................................................................................... 2 2.2搜索引擎的发展历史 ............................................................................................. 3 2.2.1搜索引擎的起源 .................................................................................................. 3 2.2.2第一代搜索引擎 .................................................................................................. 3 2.2.3第二代搜索引擎 .................................................................................................. 3 2.2.4当前著名的搜索引擎简介 .................................................................................. 4 2.3搜索引擎的分类 ..................................................................................................... 5 2.3.1全文索引 .............................................................................................................. 5 2.3.2目录索引 .............................................................................................................. 5 2.3.3元搜索引擎 .......................................................................................................... 5 2.3.4垂直搜索引擎 ...................................................................................................... 6 2.3.5其他非主流搜索引擎形式 .................................................................................. 6 3 系统需求分析 ......................................................................................................... 7 3.1搜索引擎的工作原理 ............................................................................................. 7 3.2系统功能需求 ......................................................................................................... 7 3.3系统性能需求 ......................................................................................................... 8 4 系统总体设计 ........................................................................................................... 9 4.1“飞梦”搜索引擎系统总体介绍 ............................................................................ 9 4.1.1 “飞梦”搜索引擎系统工作机制 ..................................................................... 9 4.1.2 几种常见的语义WEB排序技术 ...................................................................... 9 4.1.3 语义本体概念 ................................................................................................... 10 4.1.4 语义搜索 ........................................................................................................... 10 4.1.5 基于本体的语义排序 ....................................................................................... 11 4.2系统逻辑设计 ....................................................................................................... 13 4.2.1系统时序图 ........................................................................................................ 13

第I页 共III页

4.2.2系统流程图 ........................................................................................................ 14 4.2.3系统数据流程图 ................................................................................................ 15 4.3系统模块介绍 ....................................................................................................... 16 4.3.1 模块功能介绍 ................................................................................................... 16 5 系统详细设计 ....................................................................................................... 21 5.1模块总体介绍 ....................................................................................................... 21 5.2抓取子模块 ........................................................................................................... 22 5.2.1运行Heritrix子模块 ......................................................................................... 22 5.2.2分析网页子模块 ................................................................................................ 27 5.3信息检索子模块 ................................................................................................... 30 5.3.1解析网页子模块 ................................................................................................ 30 5.3.2创建词库子模块 ................................................................................................ 31 5.3.3生成持久化类子模块 ........................................................................................ 31 5.3.4创建Document子模块 ..................................................................................... 32 5.3.5存储数据子模块 ................................................................................................ 33 5.4语义排序模块 ....................................................................................................... 33 5.4.1概念定义 ............................................................................................................ 33 5.4.2算法实现原理 .................................................................................................... 34 5.4.3 语义排序部分代码 ........................................................................................... 35 5.5用户子模块 ........................................................................................................... 37 5.5.1搜索页面 ............................................................................................................ 38 5.5.2详细信息页面 .................................................................................................... 38 5.5.3后台信息管理 .................................................................................................... 38 6 结论 ......................................................................................................................... 39 参 考 文 献 ............................................................................................................... 40 致 谢 ........................................................................................................................... 42

第II页 共III页

1 引言

随着互联网的不断发展和日益普及,信息技术的不断发展,网上的信息量在爆炸性增长,网络已经深入到了人们生活的各个方面,影响并改变了人们生活方式和思维方式。中国互联网络信息中心(CNNIC)在京发布第33次《中国互联网络发展状况统计报告》。《报告》显示,截至2013年12月,中国网民规模达6.18亿,互联网普及率为45.8%,网站数达320万,域名数目已达1844万,全球Web页面的数目已经超过200亿,中国的网页数估计也超过了40亿。在如此浩瀚的海洋里寻找信息,就像“大海捞针”一样,急切需要一种工具使我们可以迅速找到我们想要的内容,这就是搜索引擎发展的巨大市场和动力。著名的因特网搜索引擎包括Baidu、Google、Sohu等。

搜索引擎指自动从因特网搜集信息,经过一定整理以后,提供给用户进行查询的系统。因特网上的信息浩瀚万千,而且毫无秩序,所有的信息像汪洋上的一个个小岛,网页链接是这些小岛之间纵横交错的桥梁,而搜索引擎,则为用户绘制一幅一目了然的信息地图,供用户随时查阅。它包括信息搜集、信息整理和用户查询三部分。“飞梦” 搜索引擎系统通过Hertix实现了自动将Web上的海量网页抓取到本地。然后解析网页,提取其中的有用内容,为网页建立本体词库,对解析网页生成的信息文件进行分词,并建立索引,将索引存入数据库中。通过语义排序实现将索引按照一定的排序规则排序,并将排好序的的结果存于缓存,以供用户查询。

“飞梦” 搜索引擎系统为用户提供了简洁的查询页面,用户通过此界面完成与系统的交互。当用户在查询界面上输入要检索的信息后,系统将在可以接受的时间内,返回用户所需的结果集。本系统实现了搜索引擎的基本功能,能够使用户可以简单,快捷,精确的对感兴趣的东西进行检索。

第III页 共III页

2 课题背景

2.1搜索引擎的概念

由于网络信息的飞速增长,我们不得不面对浩瀚的网络资源,这极大地改变了人们获取信息的方式, 面对浩如烟海的网络信息, 如何才能迅速、方便地获取有效信息, 日益成为人们关心的问题, 搜索引擎的出现极大地缓解了这一矛盾。它为所有网上冲浪的用户提供了一个入口,毫不夸张的说,所有的用户都可以从搜索出发到达自己想去的网上任何一个地方。因此它也成为除了电子邮件以外最多人使用的网上服务。

搜索引擎是一种应用在Web上的,为用户提供检索服务的软件系统, 它以一定的策略在Web上搜集和发现信息, 并对信息进行分析、提取、组织等处理后形成供检索用的数据库。从使用者的角度看,这种软件系统提供一个网页界面,让他通过浏览器提交一个词语或者短语,搜索引擎会在数据库中进行搜寻,如果找到与用户要求内容相符的网站,便采用特殊的算法——通常根据网页中关键词的匹配程度,出现的位置/频次,链接质量等——计算出各网页的相关度及排名等级,然后根据关联度高低,按顺序将这些网页链接返回给用户。这个与用户输入内容相关的信息列表(常常会是很长一个列表,例如包含1万个条目)。这个列表中的每一条目代表一篇网页,至少有3个元素:

(1)标题:以某种方式得到的网页内容的标题。最简单的方式就是从网页的标签中提取的内容。(尽管在一些情况下并不真正反映网页的内容)。

(2)URL:该网页对应的“访问地址”。有经验的Web用户常常可以通过这个元素对网页内容的权威性进行判断,例如http://www.people.com上面的内容通常就比http://notresponsible.net(某个假想的个人网站)上的要更权威些(不排除后者上的内容更有趣些)。

(3)摘要:以某种方式得到的网页内容的摘要。最简单的一种方式就是将网页内容的头若干字节(例如512)截取下来作为摘要。

通过浏览这些元素,用户对相应的网页是否真正包含他所需的信息进行判断。比较肯定的话则可以点击上述URL,从而得到该网页的全文。搜索引擎提供信息查询服务的时候,它面对的只是查询词。而有不同背景的人可能提交相同的查询词,关心的是

第 2 页 共 43页