搜索引擎是要给对互联网上的海量信息资源进行搜集并整理,然后给用户查询的系统。它一般包括信息搜集、信息整理和用户查询三个部分组成。
早期的搜索引擎是把Internet中的丰富的资源地址搜集起来,然后又由其提供的资源的不同类型而分成不同的目录,在逐层地进行分类,这就是目录索引搜索引擎的原理。随着因特网上的信息成几何级数式增长,出现了真正意义上的搜索引擎,这些搜索引擎收集很多网站的地址,随后逐一搜索网站的所有链接,把网站的所有链接和链接中的所有词汇分类存入数据库中,便于用户能够方便地进行查询,并快速返回用户查询的结果信息,并对查询的结果进行排序,其中,搜索结果的排序对搜索引擎起着重要的作用,也是衡量搜索引擎的一个重要指标。
1 搜索排序的作用
搜索引擎的目标是帮助用户迅速查找到所需的网络资源, 并快速将搜索的信息反馈给用户。作为用户希望最符合自己需求的网络资源能在放置在搜索结果队列里排在前面。从用户的搜索行为习惯来看, 用户通常最关心前几页的信息,而越往后的信息用户越不愿意查看。
然而,针对当前用户反应,搜索引擎排序主要存在如下一些问题:
- 搜索结果重复;
- 搜索结果排序欠佳;
- 搜索结果太陈旧;
- 广告太多。
由此可见,搜索引擎排序中搜索结果的排序在搜索引擎中发挥着很重要的作用。好的搜索引擎总能将用户需要的结果信息放置在搜索结果的前面,相反如果用户需要的结果信息总被排在检索结果的后面, 则被用户点击的机率就很小,这样的搜索引擎也不会取得成功。图1中展示了搜索引擎的工作原理以及搜索排序在搜索引擎中的地位和作用,由图中可以看出,搜索排序是整个流程中与用户的接口层,其排序的好坏直接影响整个搜索引擎的设计流程。总而言之, 排序是搜索引擎最关键的技术之一, 排序策略和算法决定了排序效果的优劣。
2 排序技术介绍
2.1 Alexa网站排序算法
Alexa是发布世界网站排名而引人注目的一个网站,在收集URL数量上,ALexa位居四大搜索引擎第一位,超过350亿。Alexa的网站世界排名主要分两种:综合排名和分类排名。综合排名也叫绝对排名,即特定的一个网站在所有网站中的名次。Alexa每三个月公布一次新的网站综合排名,此排名的依据是用户链接数(users reach)和页面浏览数(page views)三个月累积的几何平均值。当前世界排名最靠前的网站:雅虎(www.yahoo.com)高居榜首,而世界著名的搜索引擎Google排名第二,(此排名可能随时变化)。
但Alexa网站排名会受到一些因素的影响,如Alexa工具栏仅在windows操作系统下,Internet Exploer浏览器中管用,使用其它操作系统或者浏览器的访问将不能被计数。Alexa工具栏也受到语言、地域、文化等各方面的影响,网站宣传广告的影响等。
2.2 PageRank排序算法
Goolge是当前全球用户使用最多的搜索引擎。Google之所以能够如此成功,一个重要的因素是Google对搜索结果的排序比其它的搜索引擎都要好,总能将结果返回到前几个页面。这与Google的搜索引擎排序算法分不开,Google的搜索结果的质量在很大程度上受益PageRank排序算法。
PageRank 算法的基本思想是:如果一个页面被许多其他页面引用,则这个页面很可能就是重要页面;一个页面尽管没有被多次引用,但被一个重要页面引用,那么这个页面很可能也是重要页面,一个页面的重要性被均分并将传递到它所引用的页面中。其中页面的重要程度量化后的分数就是PageRank 值。著名的搜索引擎Google 所用的就是PageRank 算法,该排序根据网页间的链接信息迭代计算得到,这里的链接信息是相对静态的,没有考虑网页使用的动态信息。
根据这个思想,可以得出页面A的PageRank值PR(A)的计算公式为:
式中: PR(A) —— 页面A的PageRank值;PR(Ti) —— 页面Ti的PageRank值,页面Ti链向页面A;C(Ti) —— 页面Ti链出的链接数量;d —— 阻尼系数,d=0-1,实际应用时设0.85;N —— 互联网上所有网页的数量。
由上面的公式可以看出,一个网页链入的数量越多,这些链入网页的PageRank值越高,这些链入网页本身的链出数量越少,则该网页的PageRank值越高。和Alexa算法不同,PageRank算法并不是将整个网站排名而是以单个页面计算的。其次,页面A的PageRank的值取决于那些连接到A的PageRank的递归。
PageRank技术根据网页之间的链接结构对网页的重要性进行了客观的评价,并将网页的PageRank值应用于检索已过的排序,网页的PageRank值越高,表明其越重要,排序越前。这样,在很大程度上避免和减少了人为因素,做到客观地将最恰当的检索结果展现给用户。消除了通过用不公正的方式处理网页级别,使真正有信息资源价值的任何小网站的网页在检索时和有名的网站的网页占有同等的地位,使搜索用户不会被假排名靠前的网站所干扰,保证用户能够检索到真正有用的信息。
2.3 HillTop排序技术
和PageRank一样,HillTop同样是一项搜索引擎结果排序的专利,是Google一个工程师Bharat在2001年获得的专利。
HillTop算法的指导思想和PageRank的是一致的,都是通过网页被链接的数量和质量来确定搜索结果和排序权重。但HillTop认为只计算来自具有相同主题的相关文档链接对于搜索的价值会更大。Bharat称这种对主题有影响的文档为“专家”文档,从这些专家文档页面到目标文档的链接决定了被链接网页“权重得分”的主要部分。与PageRank结合HillTop算法确定网页与搜索关键词的匹配程度的基本排序过程取代了过分依靠PageRank值去寻找那些权威页面的方法,这对于两个具有同样主题而且PR值相近的网页排序过程中,HillTop算法就显得非常重要了。同时,HillTop也能避免了许多想通过增加许多无效链接来提高网页PageRank值的作弊方法。
2.4 竞价排名
竞价排名是现在商业搜索引擎非常重要的一个手段,对于某些关键词搜索引擎进行拍卖,出价高的单位可以获得较高的排名,即在该关键词的检索结果中处于较前的位置,通常情况下,首页排名竞价最高。例如在“百度”购买一个关键词足球,首页的可能要2000元人民币甚至更多,下面以百度竞价为例作一个简单的介绍。
搜索引擎是应用最广泛的网络服务,每天有上千万的用户通过搜索引擎来寻找各种信息,企业的潜在用户也在其中。因此,存在了关键词竞价排名的商机。参加百度搜索竞价排名,注册属于企业的产品关键词(如产品或服务的具体名称),当企业的潜在用户通过搜索引擎寻找相关产品信息时,企业的网站将出现在搜索结果的醒目位置上。百度搜索竞价排名,可以将那些只在寻找企业产品的潜在客户直接带到企业的网站进行访问,从而为企业带来大量业务咨询,进而产生新订单,赢得新客户,实践证明,竞价排名是目前效果最好、投资回报最高的网络推广服务。
百度竞价排名是百度首创的一种按效果付费的网络推广方式,用少量的投入就可以给企业带来大量潜在客户,有效提升企业销售额,每天有超过一亿人次在百度查找信息,企业在百度注册与产品相关的关键词后,企业就会被查找这些产品的客户找到“竞价排名”按照给企业带来的潜在客户访问数量计费,企业可以灵活控制网络推广投入,获得最大回报应该说收费排名并不属于排序技术,这里指的收费排名也包括竞价排名,而是一种搜索引擎的赢利模式,但收费排名已经最直接的影响到了搜索引擎的排序,在此也略做一下说明,用户可以购买某个关键词的排名,只要向搜索引擎公司交纳一定的费用,就可以让用户的网站排在搜索结果的前几位,按照不同关键词、不同位置、时间长短来定义价格收费,排名一方面给搜索引擎公司带来收益,一方面给企业带来访问量,另外对访问者也有一定好处因为访问者想找“足球”,企业想卖“足球”,于是出钱让访问者能找到他,这样,买家和卖家能马上见面但收费排名给访问者带来更多的却是不真实,结果排序已经失去了公正性,有时候还带来大量垃圾。
当然,对于企业来说,收费排名是提升网站在搜索引擎中排名的最直接和最简单的办法。如前所述的针对搜索引擎排序,通过修改网页或者网站结构和主动增加网站链接等方法来让搜索引擎认为这些网页是很重要的,从而提升网页在搜索引擎结果中的排名,这对众多没有参加竞价排名的网站来说,是有失公平的。
3 排序结果存在的问题
目前各种搜索引擎的技术都有改进和优化,都直接反应到搜索结果的排序上。许多搜索引擎都在进一步研究新的排序方法,来提升用户的满意度。
搜索引擎排序算法上还存在两大不足:
1.没有真正解决相关性
相关性是指检索词和页面的相关程度。仅仅通过链接、字体、位置等表面特征,不能真正判断检索词和文章的相关性,更何况许多时候这些特征不会都同时存在。这也是许多对搜索引擎作弊方法能起效的原因。另外,有些文章中没有出现检索词,但说的就是和检索词十分相关的内容,例如检索“篮球”,但有网页是介绍的一些赛事活动,文中没有出现“篮球”的字眼,搜索引擎就无法检索到该网页。表面特征只能治标,不能治本。解决相关性的的方法应该是增加语意理解,例如主题词和关键词的提取,从语意上分析,得出检索词和网页的相关程度,分析得越准,效果就会越好。
2.搜索结果的单一化
在搜索引擎上,任何人搜索同一个词的结果都是一样。这样明显不能满足访问者。科学家搜索“星球”,可能是希望了解星球的知识,但普通人可能是想找“星球大战”电影,但搜索引擎所给的都是一样的结果。如何满足这些不同类型的访问者,需要对搜索结果的个性化。Vivisimo公司就是想解决这个问题,他们采用对检索结果自动聚类的办法来满足不同类型客户的需要。检索结果排序如果要实现从单一化到个性化,该公司已经迈出了重要一步,但最理想的结果应该是针对每个访问者,排序结果直接和他们的检索习惯和意愿有关。例如搜索“体育”,对喜欢足球的人应该把足球的相关结果排在前面,对喜欢篮球的人应该把篮球的相关结果排在前面。
4 结束语
综上分析可知,目前现有的所有引擎排序算法并不能很好的满足用户的需求,因此,对于搜索排序算法的改进和搜索引擎优化有深入研究的必要。如何解决信息的相关性,如何将搜索的结果实现个性化,搜索引擎的排序技术也会朝着解决这两个不足的方向发展语意相关性和排序个性化,前者需要完善的自然语言处理技术,后者需要记录庞大访问者信息和复杂的计算。相信这方面问题的研究会给搜索引擎技术带来巨大的发展,也必将会更好的满足用户的需求。
