索引指的是将一个URL的信息进行整理,存入数据库,也就是索引库,用户搜索时,搜索引擎从索引库中提取URL信息并排序展现出来。索引的英文是index。索引库是用于搜索的,所以被索引的URL是可以被用户搜索到的,没有被索引的URL用户在搜索结果中是看不到的。
要注意的是,所谓“一个URL的信息“,并不限于蜘蛛从URL上抓取来的内容,还有来自其它来源的信息,如外部链接、链接的锚文字等。有的时候,索引库中关于这个URL的的信息,根本没有从这个URL抓取来的内容,但搜索引擎知道这个URL的存在,并且有一些其它信息。
索引类型又分为普通索引,唯一索引,主键索引,聚焦索引
普通的索引没有限制,可以重复;
唯一的索引在两行中不允许具有相同的索引值的索引;
主键的索引定位更为准确,其值唯一标识表中的每一行;
聚焦的索引,一个表中只能包含一个聚焦索引;
注:抓取和索引不是一回事。