互联网是当今世界上规模最大、信息更新最快的知识库,在终身学习及学教并重理念日益深化的今天,它已经超越课本成为最重要的学习资料来源。为了在这个浩瀚的知识海洋中有效获取学习资料,无论是教师还是学生都应当具备熟练使用搜索引擎的能力。
搜索引擎其实就是专门提供信息检索服务的网站。Google作为全球规模最大的搜索引擎,目前它所收录的网页已超过60亿。百度作为全球规模最大的中文搜索引擎,所收录的中文网页也已超过20亿。不可否认,搜索引擎在信息检索方面给我们带来了极大的方便,然而我们在使用搜索引擎时,却总有这样的体验:检索到的网页令人目不暇接,有用的链接地往往夹杂在一大堆无益的链接中,要翻遍所有的网页才能找到真正需要的信息。这种状况严重影响了我们在互联网上获取知识的效率和热情。
怎样使我们的搜索更准确和高效呢?笔者认为除了期待搜索引擎在现有技术水平上实现大幅度突破以外,更为实际的一面是锻炼我们的个人搜索技巧,在了解搜索原理的基础上充分发挥搜索引擎的检索能力。
搜索引擎的原理
搜索引擎的基本工作过程是根据用户输入的关键词进行检索,然后按照顺序将检索结果列表显示。检索过程是在文档库中完成的,也就是每一个搜索引擎都有一个独立的文档库,文档库中存储着互联网上所有检索过的网页的一个复制品,通常称为“网页快照”。文档库中的网页会定期更新,一般为每30天一次。更新是通过一种称为“蜘蛛”的程序到互联网上进行检索,凡是被检索到的新网页就会以快照的形式存入文档库,相应的旧网页就会从文档库中删除。如果文档库更新不全面或者不及时,就会出现废弃网页存储在文档库中的情况。如果这些网页恰好以检索结果的形式显示给我们,就出现了所谓的“空”链接,点击这些链接浏览器就会提示“该页无法显示”。
搜索引擎检索文档库的过程实际上是一个关键词匹配的过程。文档库中的每一个网页都 对应一个索引表,索引表中存储的是从网页中抽取出来的大量关键词。
搜索引擎在检索时就是使我们输入关键词与网页索引表中的关键词进行比较,凡是达到一定匹配程度的网页都会作为检索结果返回。例如,网页的索引表为{A,B,C,D,E,F……},如果用户的检索关键词为“A”和“D”,那么上述网页就是符合条件的一个检索结果。
搜索引擎的检索结果是经过排序后显示的。排序的标准主要由关键词匹配程序和网页等级两个参数决定。关键词匹配程序是指用户输入的关键词能够得到匹配的个数。网页等级是指一个网页被其他网页引用的程度(引用就是从其他网页有超链接指向这个网页)。一般来说,一个网页被其他网页引用的次数越多,引用这个网页的其他网页的等级越高。那么这个网页的等级就越高。
只有在关键词匹配程度和网页等级都很高的情况下,网页才会排到前面,因此我们就会明白为什么有时我们感觉最匹配的网页却排在不很匹配的网页后面,就是因为后者比前者的网页等级更高。所以,对于重要的搜索结果我们应至少查看2~3页,以免错过了对我们来说最有意义的网页。
提炼关键词
根据上面所述的原理,我们会发现,在现有搜索引擎技术的基础上提高它的检索效果,就是以是提高关键词的匹配程度。因此,我们需要对关键词进行提炼。
关键词的成分
搜索引擎不限制关键词的内容,因此,任凭字、词、句都可以作为关键词来使用。但为了提高的检索效果,字和句应以是应用;对于词,最好能够组合使用;还要把意义模糊或太过常用的单个词(如:“公式“、”信息技术”等)作为关键词,因为这些词极容易匹配,单独使用它们无疑会大量增加无关网页的数量。
使用长关键词
如果被检索的问题可以用一个结构紧凑的长词组来表达,那么应首先考虑使用长词组作为关键词(如“是距离地球最近的恒星“、”中小学信息技术课程教案“),因为与使用多关键词相比、使用单一的长关键词更能显著提高匹配的准确率。
使用长词组作关键词时需要加上中文的或者英文的引号,如“‘是距离地球最近的恒星’“。加上引号可以保证长词组被作为一个完整的关键词去匹配,否则,搜索引擎会把长词组分解成一系列关键词。例如,不加引号时,“是距离地球最近的恒星”会被分解为“距离”、“地球”、“最近”、“恒星”四个词进行检索,在Google中将返回1,610,000项检索结果,在百度中将返回65,300项检索结果,期中大部分结果都不能给出“太阳是距离地球最近的恒星”这个答案。加上引号后,检索结果则迅速缩减,Google返回158,000项结果,百度139项结果,每一项结果都能够给出我们需要的答案。
使用多关键词
如果被检索的问题不易于用一个结构紧凑的长词组来表达,这时就应考虑通过增加关键词的个数来提高检索的效率。以检索数学排列公式为例,如果我们以“排列”或者“排列的公式”作为关键词,则会得到一大堆无关的网页。这时增加关键词的个数,使用“排列 组合 二项式定理”作为关键词,在检索结果第一页中就能找到讲解排列组合公式的网页。
使用运算符
搜索引擎提供逻辑运算符,最常用的是“+”(英文的加号)和“-”(英文的减号)。加号的作用是在检索时强制包含加号后页的关键词,减号的作用是在检索时强制排除减号后面的关键词。如“北洋水师 +丁汝昌”表示检索有关北洋水师提督丁汝昌的内容。“北洋水师 定远 镇远 –电视”表示检索有关北洋水师铁甲舰、但排除有关电视剧的内容。灵活应用这些运算符也可以显著提高检索效果。
使用检索策略
有时我们需要使用一些检索策略,如“先繁后简”和“先简后繁“。对于不知怎样抽取关键词的问题,可以使用”先繁后简“策略。如在编写计算机程序时遇到的古里古怪的错误信息,就可以把整个错误信息作为关键词去检索,如无结果返回,就从后向前去部分词语,继续检索,直到查到结果。对于不级明确关键词的问题,可以使用”先简后繁“策略。例如,先检索”教育行动计划“,得到”2003-2009年教育振兴行动计划“的标题全称,再以这个全称标题为关键词,就可以准确地检索到文献全文。
缩小检索范围
除了使用关键词技巧,我们还可以通过缩小检索范围来进一步优化检索效果。最常用的方法是指定网页语言、网页时间、网站范围和文档格式。网页语言是网页使用的语言类别。网页语言是网页使用的语言类别,如简体中文、繁体中文等;网页时间是文档库中网页更新的时间,如最近一天、最近一月等,这两项内容比较简单,可以进入搜索引擎的“高级搜索”界面直接指定,这里不再详述。下面笔者要介绍的是网站范围和文档格式的使用方法。
网站范围是指网站的类别或一个具体的网站,如“edu.cn”、“sina.com.cn”等。当我们在网上遇到感兴趣的资料,事后才又想起查找该资料时,就可以凭借对该网站的记忆,使用网站范围这个功能来快速锁定相关网页,其使用方法是在关键词后面加上“site:网站名”。例如,我们要在K12网站上查找屈红霞老师的“走进信息化田野“,就在google.cn中输入“走进信息化田野 site:K12.com.cn”,Google返回的第一个结果就是这篇文章。
文档格式是指网页的编码格式,如PDF、PPT、Doc等,当我们只需要某种格式的文件时,就可以使用文档格式的这个功能,其使用方法是在关键词后面加上“flletype:文档格式”。例如,我们要查找Doc格式的信息技术课程教案,就可以在Google中输入“信息技术课教案 filetype:Doc”,可以看到,Google返回的结果都是Doc格式的文档。
结语
以上就如何优化搜索引擎的检索效果介绍了一些简单的方法。在本文中的写作中,笔者深感,正像学习要讲究方法一样,获取信息也要讲究方法,这是以前所不曾有的,然而这正是信息时代赋予我们的要求,只有具备了这些基本素养,我们才能在知识的海洋中自由翱翔。
