|
搜索引擎涉及信息检索、人工智能、计算机网络、分布式处理、数据库、数据挖掘、数字图书馆、自然语言处理等多领域的理论和技术,是一个交叉研究领域,极具综合性和挑战性。
下面将介绍目录式搜索引擎与全文搜索引擎的工作过程。 一、目录式搜索引擎工作过程,如下示:
人工发现信息→依靠编目员的知识进行甄别和分类→用户通过浏览分类目录查看自己所需要的信息
目录式搜索引擎(Directory Search
Engine)是最早出现的基于WWW的搜索引擎,以雅虎为代表,我国的搜狐也属于目录式搜索引擎。
目录式搜索引擎由分类专家将网络信息按照主题分成若干个大类,每个大类再分为若干个小类,依次细分,形成了一个可浏览式等级主题索引式搜索引擎,一般的搜索引擎分类体系有五六层,有的甚至十几层。
目录式搜索引擎主要通过人工发现信息,依靠编目员的知识进行甄别和分类。由于目录式搜索引擎的信息分类和信息搜集有人的参与,因此其搜索的准确度是相当高的,但由于人工信息搜集速度较慢,不能及时地对网上信息进行实际监控,其查全率并不是很好,是一种网站级搜索引擎。
二、全文搜索引擎工作过程
从网上“抓取”网页→建立索引数据库→在索引数据库中搜索排序→响应用户查询
1、从网上“抓取”网页
也就是信息采集,利用Spider系统程序,自动访问因特网,并沿着网页中的所有URL爬到其他网页,重复这一过程,再把爬过的所有网页收集过来。
搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间(比如Google一般是28天),搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内(2天到数月不等)定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。由于近年来搜索引擎索引规则发生了很大变化,主动提交网址并不保证你的网站能进入搜索引擎数据库,因此目前最好的办法是多获得一些外部链接,让搜索引擎有更多机会找到你并自动将你的网站收录。
2、建立索引数据库
把收集回来的网页进行分析,提取相关网页信息(包括网页所在URL、编码类型、页面内容包含的所有关键词、关键词位置、生成时间、大小、与其他网页的链接关系等),根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面文字中及超链接中每一个关键词的相关度,然后用这些相关信息建立网页索引数据库。
3、在索引数据库中排序
当用户输入关键词搜索后,由搜索系统程序从网页索引数据库中找到符合关键词的所有相关网页。因为所有相关网页针对该关键词的相关度早已处工好,所以只需按照现厉的相关度数值排序,相关度越高,排名越靠前。
4、用户接口
搜索引擎的用户接口有两个重要的方面:查询的响应。

|