1.搜索引擎的概念及原理
搜索引擎(Search Engines)是指在WWW(World Wide Web)环境中能够即时响应用户提交的搜索请求,在一个可以接受的时间内返回和该用户查询匹配的结果信息(一般为一个包含标题、URL链接和摘要的信息列表)的技术和系统。
搜索引擎的工作原理一般可概括为一个三段式过程:网页搜集、预处理程序和查询服务。
具体地说,我们从搜索引擎搜出的页面其实是预先被收集在该搜索引擎的网页数据库中的,其抓取程序可定期批量地从互联网上全面搜集网页,或者是采取增量方式,只是将网络中自上段时间来出现的新的网页、或者有更新的添加到网页数据库中,并删去实际已不存在的网页。有研究指出50%网页的平均生命周期约为50天。故要想保证搜索服务的有效性,搜索引擎的抓取程序周期不应长于这个时间段。
预处理阶段一般包括两个主要方面:关键词的提取、消除重复或转载网页。对于中文搜索来说,主要是利用一些分词软件,根据词典∑,从网页文字中切出∑所规定的各个词语ti,使得一篇网页的内容可近似地由P={t1,t2,……,tn}表示,并去掉诸如"的"、"在"等没有实际内容指示意义的"停用词"。北大天网在2005年的一次大规模统计分析中表明,网页的重复率平均大约为4。故这个阶段的另一重要任务是运用一些算法,根据网页间的内容相关性系数 这一标准,若两篇网页的相关性大于它,则认为是重复的,只收录其中一篇。
查询服务阶段的工作包括查询匹配、结果排序和文档摘要三个部分。虽然各个网民的搜索行为特征不尽相同,输入的搜索条件意义各异。如:在搜索引擎中输入"中南财经政法大学",用户有可能是想进入该学校的网站,查找有关该学校的直接的招生、管理等信息,也有可能是想通过其他诸如湖北省招生办、中国大学排行榜等,了解有关对于该校的外部评价。但用一个词或者短语来直接表达其信息需求,希望网页中含有该词或短语中的词,这一行为由于代表着大多数情况,且较容易实现,故依然是现在主流的搜索引擎查询模式。查询匹配得出的结果很多,在预处理阶段为每篇网页形成一个独立于查询词的重要性指标,将它和查询过程中形成的相关性指标结合形成一个最终的排序列表。查询结果的文档摘要主要有两种生成机制:静态摘要和动态摘要。前者是预先截取网页正文开头的512个字节,或将每一段落的第一个句子拼起来形成摘要。这种摘要与具体的查询条件无关,一个网页只有一个相对固定的摘要。后者是在响应查询时,根据查询词在文档中的位置,提取出周围的文字来,在显示时将查询词标亮,一个网页针对不同的查询条件有着不同的摘要。一般现阶段的搜索引擎运用动态摘要生成技术。
2.两种搜索引擎的原理、特点比较
随着互联网络的迅猛发展和人们对信息需求质量要求的进一步提高,搜索引擎技术和市场也在不断扩大,呈现"百家争鸣,百花齐放"的态势。有关搜索引擎的名词也越来越繁多。如第四代搜索引擎、桌面搜索、地图搜索、盲人搜索、自然语言搜索引擎、购物搜索引擎、学术搜索……尽管搜索引擎有着众多不同的表现形式和应用领域,但就其具体工作原理来说,可分为两种基本类型:全文搜索引擎、目录式搜索引擎。
2.1 全文搜索引擎
全文搜索引擎又称"自动式搜索引擎":基于自动信息搜索和分析的搜索引擎系统。相信"蜘蛛"(spider)程序大家都不陌生。其实它是一个能以我们普通人类无法达到的速度不间断地重复执行某项特定任务的自动"机器人"程序。由于搜索引擎的"机器人"(Robot)程序在检索信息时像只蜘蛛一样在网络中爬来爬去,故又称为"蜘蛛"程序。全文搜索引擎定期(上述已提到)派出"蜘蛛"程序,对一定范围内的网络进行检索,搜集网页资源,批量或增量地对网页数据库进行更新。严格地说,全文搜索引擎才属于真正意义上的搜索引擎,因此它完全符合上述介绍的搜索引擎的三段式工作原理。
这种搜索引擎中涉及到的网页数量多、信息量大、抓取过程无需人工干预,且能定期或增量地搜索网页,即时更新索引库的内容。但它返回的搜索结果也很多,且有可能包含不少杂乱无章的无关信息,用户必须经过自己的筛选才能得到真正想要的信息。另外,这种搜索引擎只提供基于关键词的检索,用户只有知道了要查找的信息的具体、较准确关键词汇,才能有效地运用该搜索引擎。像比较有影响力的Google、百度、北大天网都属于全文搜索引擎。
2.2目录式搜索引擎
另一种搜索引擎就是这里所说的目录式搜索。这种搜索引擎没有程序去采集互联网上的任何信息,而是根据各个网站向其提交的网站信息(一般涉及到网站名称、网址、类别、网站简介、关键词等),通过具有专业知识的网页编辑人员人工地对这些网站进行精选,建立一个内容分类索引目录。用户查询时,再根据其输入的搜索条件和类别,进行有层次地检索,直到找到感兴趣的专题。其内部体系结构如下图:
目录式搜索引擎由于很多部分是由人工控制的,其对网页信息的理解和分类明显准确于机器程序,因此返回的结果信息与搜索条件的相关性比例很高,用户满意度较高。同时,由于覆盖范围比较小,系统需要维护的网页数量相对有限,因此有利于减小系统的时间和空间消耗。但搜索结果的信息量小也许也就成了它的弱点。Yahoo是目录式搜索引擎的代表,国内的新浪、搜狐等也是从该技术发展起来的。
3.两种搜索引擎的性能评价标准
基于用户的角度,评价一个搜索引擎一般从三个方面来考察:查全率(recall)、查准率(pression)、响应时间(responsing time)。
查全率是判断检索系统质量的一种度量,表示系统所检索到的所有文档数占互联网中实际与查询相关的总文档数的百分比。查准率也是判断的一个指标。指系统所检索到的真正与查询相关的文档数占检索出的所有文档数的百分比。而响应时间更是衡量其性能的一个标准,用户在搜索时的耐心是有限的,一般搜索引擎的响应时间在毫秒级,是不应超过1秒的。
当然,无论哪个搜索引擎都不是完美的,查全率很高的,也许其查准率相对较低,响应就较慢。因此根据各个搜索引擎在这几个性能方面的特点,到底要用哪一个,要具体看用户对这几个方面的期望,各取所需,灵活地选择搜索引擎,尽量达到预想的结果。
4.两种搜索引擎的发展趋势
由于全文搜索引擎与目录式搜索引擎各有千秋,而网络用户的需求是不统一的。因此,目前,这两种搜索引擎有相互融合渗透的趋势。一些原来纯粹的全文搜索引擎现在也提供目录搜索,如有名的Google就通过"谷歌"提供诸于大学搜索、地图搜索、图书搜索等分类查询。而Yahoo等传统的目录式搜索引擎也通过"全网"搜索,与其他全文搜索引擎合作,扩大了其搜索覆盖范围。
网络资源越来越丰富、繁杂,大多数网民更关注的并不在查询结果的"全"上,而是"准"、"快"。因此,越来越细化的目录式搜索引擎必将是其发展态势。且需要更顶尖的技术去支持相关性反馈机制、智能代理跟踪用户检索行为等功能,使用户可以告诉搜索引擎哪些文档和自己的需求相关及其相关程度,可以使系统能通过分析用户模型调整其内在查询匹配机制,提高其查准率。另外,可将搜索结果按多种不同的参数标准排序,用户可以根据需要选择一种浏览结果列表,提高准确率。这个技术有很多搜索引擎诸如Google、百度等在新闻资讯搜索时已做到(按时间排序、按相关性排序等),但还未得到广泛和深入地应用。最后值得一提的是,目前由搜索引擎得到的URL链接进入相应的网页,并不能立即找到所需要的信息处,用户必须从头浏览、细心查找。那么,是否可以像搜索摘要中标亮查询词那样,在目标网页中标识或定位涉及查询条件的位置呢?这也有待研究。
5.结束语
搜索引擎的存在,使得我们只要点击几下鼠标,便走近了任何问题的答案。它于无形中改进着我们的学习方式甚至是生活方式,在不断创造着奇迹,而这些奇迹也还存在着诸多不足。分析研究当前的搜索引擎技术,探索其出路和突破口,也正是该篇文章的主旨所在。
