【论文关键词】:个性化;网络搜索引擎;传统搜索引擎
【论文摘要】:网络搜索引擎的发展必然提出对个性化的需求,对比几个典型的传统搜索引擎,来分析几种新的搜索引擎对提高个性化需求,并提出相应的技术。
1.网络搜索引擎概况
1.1网络搜索引擎的定义
广义的搜索引擎泛指网络上提供信息检索服务的工具或系统,在网络环境下搜索引擎所扮演的角色与传统的手工检索工具在印刷版时代所扮演的角色很近似,二者都是对信息资源进行搜集、整理并提供各种查询途径,因此,搜索引擎又被称为网络检索工具。搜索引擎主要面向网络信息资源,并通过Internet来提供服务。
狭义的搜索引擎主要指利用自动搜索技术软件,对Internet(主要是Web)网络资源进行收集、组织并提供检索服务的一类信息服务系统。
Internet上有大量的信息,靠人工来收集、加工、处理是相当困难的,因此人们设计了一种自动搜索技术软件,称之为"机器人"( Robot ) ,"蜘蛛"( Spider) ,"爬行者"( Crawler),"漫游"( Wanderer)或"蠕虫"( Worn)等,机器人是一个程序,首先精选一批高质量的URL并遵循HTTP协议将这些URL所代表的网页抓取回来,从抓取到的这些网页中抽取出所有新的,未访问过的超级链接,并按照一定的算法选择出另一批URL,继续进行网页信息的收集,如此循环不止,直到满足需要,就可以实现海量网页的自动收集,搜索引擎所扮演的角色相当于传统的二次文献,因此他们的作用都是提供文献资源线索,只不过搜索引擎的检索空间与传统的检索空间相比,已有质的飞跃。
1.2网络搜索引擎的原理
1.2.1 独立搜索引擎的工作原理
独立搜索引擎可分为四个模块:第一是数据采集模块,即负责按照一定的方式和要求对网络上的WWW站点等资源进行收集,并将收集、发现到的,页面信息经网络传输,存人到搜索引擎的临时数据库中。第二是数据标引,即负责对收集到的网页信息进行分析,从中提取有检索价值的内容-网页关键词,并对关键词进行数值计算。第三是数据组织,它负责形成规范的索引数据库或便于浏览的层次型分类目录结构。第四就是数据检索,主要负责帮助用户用一定的形式检索索引数据库,获取符合用户需要的WWW信息。
1.2.2 元搜索引擎的工作原理
元搜索引擎分为三个模块,首先是用户接口,它是用户浏览器与元搜索引擎交互的界面,其主要任务是查询请求的分发,即根据用户输人的查询请求,分别生成适用于不同独立引擎的特定请求,完成检索指令的转换功能。其次是查询代理,主要负责元搜索引擎和相应的独立搜索引擎交互,以获取用户需要的查询结果,对于并行工作的元搜索引擎,它所链接的每一个成员引擎都对应着一个查询代理。第三是对检索结果进行汇总输出,负责把各个查询代理获得的检索结果进行必要的调整,从中选择最能满足用户需要的若干条目,并以标准负面的形式呈现给用户。
2.几种典型的网络搜索引擎介绍
2.1Alta Vista(http: // www.altavista.Dinital.com)
Alta Vita拥有最大的、最详细的网址索引,用户在使用不同的索引方法时,会出现不同的检索结果。它采用了64位运算技术,搜索速度很快,但返回的大量信息中有大多数是无用的。可对网址和Usenet Newsgroup进行检索,对返回的结果可以设置成标准、压缩和详细三种显示方式,提供简单和高级搜索模式,由于简单搜索过于简单,如果想进行有效的检索,最好是输入尽可能多而详细的关键词进行高级搜索,因为高级搜索允许使用响:尔运算符和接近操作符、括号等,例如:与AND,或OR,非NOT,接近操作符NEAR、在索引文件中查寻"+"、排除关键词"-"、通配符"*"等等,其查找后的显示结果可按关键词排序,将用户可能最感兴趣的结果放在最前面。不过它区分关键词的人小写。
2.2Yahoo( http: // www. yahoo. com)
Yahoo可能是WWW上最常用的搜索引擎提供了三种信息查询方式:归类信息浏览、主题查询和关键词搜索。归类信息方式可以浏览如最新消息、当前热点、冷门信息等内容。在主题查询方式中将信息分成12人类:艺术、商业和经济、计算机和Internet、教育、娱乐、政府、健康、新闻、休闲和运动、参考消息、区域、科学和社会科学。每一类又分成多个小类用,用户可以按主题逐步深入,直至列出所需要查询的网址。而进行关键词搜索时只需要输入关键词,指定检索范围(Yahoo索引网址,Usenet或Email地址)即可。但Yahoo提供的关键词搜索功能有限,只能用AND,OR控制关键词的关系,进行模糊串检索和精确匹配检索,不能进行更全面、更高级的检索,好在搜索结果较为丰富,包括对应条件的网址指向目录、满足条件的实际网址和相关的网址等信息。