勾引客'BLog
为网站建设|网页设计|SEO搜索引擎优化|网络推广事业而努力奋斗

网站内容检索系统的设计

1 前言

目前,计算机网络信息技术发展迅速,为人类的发展起到积极的推动作用,但也存在负面的影响,如网上色情赌博有害信息、虚假信息、政治经济的谣言等等,对社会造成一定的危害,也会影响政治和经济和稳定,甚至危害国家安全。本文设计的网站内容检索系统能够很好地满足各监管部门对加强信息监控和管理的迫切需求,协助他们及时发现已经发布在网络上的有害、虚假、反动的信息,快速高效地完成工作。

2 系统的总体结构

内容检索系统由分网页获取、模糊检索和用户查询三大部分组成,如图1所示。网页获取部分主要包括IP数据库、网站内容收集器和网页资源库。IP数据库保存了系统要抓取网站的IP地址以供网站内容收集器使用。网站内容收集器用于根据IP数据库的信息从相关网站获取对应的网页。网页资源库用于保存网站内容收集器抓取各种网页资源。模糊检索部分主要包括关键词典库、中心资源管理器、模糊检索器、命令处理接口、页级别判定器和检索结果库。关键词典库保存了用户键入的关键词和使用关键词的历史记录。中心资源管理器主要用于管理系统的各种资源、包括IP信息、关键词信息等等。命令处理接口用于接收客户端提交的检索请求命令,并将命令提交给模糊检索器执行。模糊检索器是系统的重要核心部件,它负责将根据各种资源和检索命令进行匹配运算,也可以基于首次检索结果的基础上进行二次检索,以得到更正确地,更合理地、匹配度更高的结果。检索结果库用于保存各种检索结果。页级别判定器能确定检索结果的匹配程度,并按相关度高低生成检索结果网页。用户查询部分主要包括本地IP数据库、本地关键词典库、本地资源管理器、检索命令提交器和本地检索结果,其中检索命令提交器负责根据用户的键入信息和系统的资源生成检索请求命令,并提交给服务端系统执行。

3 系统的工作原理

网站内容收集器根据IP数据库的IP信息或URL信息访问相应的网站,抓回该网站的网页存放到网页资源数据库。用户通过客户端系统生成的检索请求,由检索命令提交器发送到服务端的命令处理接口进行预处理、解释,转换成模糊检索器可以执行的命令。然后模糊检索器根据命令信息从网页资源库中取出相应的网页(若网页资源库没有该网站的网页,调用网站内容收集器获得该网页),进行关键词匹配检索运算,找出匹配的网页,并通过页级别判定器对检索结果依据排序算法进行相关度排序,结果保存在检索结果库或直接返回给客户。用户也可以在初次检索结果的基础上进行二次检索,以进一步提高检索结果的匹配程度和精确度。客户端系统与服务端系统可以在资源管理器的控制下进行各种资源信息的交换。

4 主要模块说明

本系统采用C/S模式,划分为服务端子系统和客户端子系统。服务端子系统主要提供抓取网站网页、处理检索命令、匹配网页内容、二次检索、确定结果相关度和资源管理等功能,客服端子系统则提供接收用户检索请求、显示检索结果和本地资源管理等功能。系统的模块划分如图2所示。

1) 网站内容收集器

网站内容收集器由网络蜘蛛程序和URL提取程序组成。网络蜘蛛技术[1]是现今许多著名网页搜索引擎为了获取互联网上的网页所使用的专项技术,本系统对此技术进行优化,能结合URL提取程序提供的信息动态地调整网页的抓取深度和抓取页面的数量。URL提取程序能从网络蜘蛛程序抓回的网页里提取URL,它采用特定的分析算法来过滤掉无效的、明显不相干的URL信息,以提高网页抓取的效率和质量。

2) 命令处理接口

命令处理接口负责将客户端系统提交的检索请求命令进行解释或转换成模糊检索器可以识别的、执行的命令,其关键部件是命令解释器,负责判断检索命令的语法结构和参数的正确性,并将合法的命令转换成模糊检索器可理解的、可执行的命令。命令处理接口可以集成到模糊检索器里,可以作为一个独立的部件实现。

3) 模糊检索器

模糊检索器是系统的重要核心部件,它根据各种资源与检索命令进行匹配运算,并将符合条件的网页保存在检索结果库里。它由网页获取模块、模糊匹配模块、二次检索模块和匹配规则模块组成。网页获取模块用于从网页资源库中获得对应的网页以作为检索的对象;模糊匹配模块负责根据匹配规则对检索对象执行匹配运算,找出相匹配的网页,保存在检索结果库里;二次检索模块是基于首次检索结果的基础上根据新检索命令和匹配规则进行检索;匹配规则模块负责制定各种匹配规则和匹配参数。

4) 页级别判定器

页级别判定器通过各种排序算法来确定网页与检索关键词的匹配程度,并按照从高到低的顺序生成检索结果页面,以供提出检索操作请求的客户端系统使用。排序算法是页级别判定器的核心,它主要采用Google搜索引擎所使用的“PageRank结合Hilltop算法” [2-3]的简化版,该算法能较准确地分辨出页面的匹配程度。

5) 检索命令提交器

检索命令提交器由参数获取模块、命令生成模块、命令提交模块和结果接收模块组成。参数获取模块用于接收用户键入的各种操作请求和对应的参数。命令生成模块根据用户的检索要求,利用所获得命令参数生成检索请求命令。命令提交模块负责将检索请求命令发送到服务端系统。结果接收模块用于从服务端系统中接收用户检索请求的执行结果,呈现给用户或者保存到本地检索结果。

5 结论

本文结合网络蜘蛛、模糊匹配和改进的Hilltop算法等技术,采用C/S模式,设计了一套网站内容检索系统,并阐述了它的系统结构、工作原理和主要功能模块。本系统主要提供抓取网站网页、匹配网页内容、确定敏感信息和资源管理等功能,能有效地协助监管部门切实加强公共信息的监管工作。

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

日历

网站分类

我的音乐

最近发表

Copyright 2008 GoingKer.com Some Rights Reserved.

湘ICP备08103215号 Z-Blog