和爬行抓取一样,预处置也是在后台提前完成的,用户搜索时感觉不到这个过程。
1.提取文字
目前的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码,除去用户在浏览器上可以看到的可见文字外,还包括了很多的HTML格式标签、Javascript程序等没办法用于排名的内容。搜索引擎预处置第一要做的就是从HTML文件中去除标签、程序,提取出可以用于排名处置的网页面文字内 容。
今天愚人节哈
除去HTML代码后,剩下的用于排名的文字只不过这一行致小白:先知道搜索引擎常识 再做网站优化页 面上有什么链接指向什么其他页面,每一个页面有什么导入链接,链接用了什么锚文字,这类复杂的链接指向关系形成了网站和页面的链接网站权重。
谷歌 PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算,虽然它们并不称为PR.
因为页面和链接数目巨大,网上的链接关系又时时处在更新中,因此链接关系及PR的计算要耗费很久。关于PR和链接剖析,后面还有专门的章节介绍。
9.特殊文件处置
除 了HTML文件外,搜索引擎一般还能抓取和索引以文字为基础的多种文件种类,如PDF、Word、WPS、XLS、PPT、TXT文件等。大家在搜索结果 中也常常会看到这类文件种类。但现在的搜索引擎还不可以处置图片、视频、Flash这种非文字内容,也不可以实行脚本和程序。
虽然搜索引擎在辨别图片及从Flash中提取文字内容方面有的进步,不过距离直接靠读取图片、视频、Flash内容返回结果的目的还非常远。对图片、视频内容的排名还总是是依据与之有关的文字内容,详情可以参考后面的整理搜索部分。
排名
经过搜索引擎蜘蛛抓取的界面,搜索引擎程序 计算得到倒排索引后,收索引擎就筹备好可以随时处置用户搜索了。用户在搜索框填入关键词后,排名程序调用索引库数据,计算排名显示给顾客,排名过程是与顾客直接互动的。
网页名字致小白:先知道搜索引擎常识 再做网站优化先知道搜索引擎常识 再做网站优化本文网址: