搜索引擎的工作原理
的有关信息介绍如下:搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
抓取
为什么能很快在搜索引擎看到结果?因为搜索引擎提前就把这些东西抓到数据库了!读取网页的内容,找到在网页中的其它链接地址,然后通过这些链接地址寻找下一个网页,这样一直循环下去,直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个网站,那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来,被抓取的网页被称之为网页快照。
数据库处理
搜索引擎抓到网页后,还要做大量的预处理工作,才能提供检索服务。其中有,
网站数据库,就是动态网站存放网站数据的空间。
索引数据库,索引是对数据库表中一列或多列的值进行排序的一种结构,使用索引可快速访问数据库表中的特定信息。
简单的来说,就是把【抓取】的网页放进数据库。
分析检索服务
判断关键词是什么意思,搜索引擎从索引数据库中找到匹配该关键词的网页;
对收集的结果进行排序
把收集来的网页进行排序,把这些进行最终的排序。