致小白：先知道搜索引擎常识再做网站优化_网站优化_建站学院

搜索引擎蜘蛛抓取的原始页面，并不可以直接用于查看排名处置。搜索引擎数据库中的页面数都在数万亿级别以上，用户输入搜索关键词后，靠排名程序实时对这么多页面剖析有关性，计算量太大，不可能在一两秒内返回排名结果。因此抓取来的页面需要经过预处置，为最后的查看排名做好筹备。

和爬行抓取一样，预处置也是在后台提前完成的，用户搜索时感觉不到这个过程。

1.提取文字

目前的搜索引擎还是以文字内容为基础。蜘蛛抓取到的页面中的HTML代码，除去用户在浏览器上可以看到的可见文字外，还包括了很多的HTML格式标签、Javascript程序等没办法用于排名的内容。搜索引擎预处置第一要做的就是从HTML文件中去除标签、程序，提取出可以用于排名处置的网页面文字内容。

今天愚人节哈

除去HTML代码后，剩下的用于排名的文字只不过这一行致小白：先知道搜索引擎常识再做网站优化页面上有什么链接指向什么其他页面，每一个页面有什么导入链接，链接用了什么锚文字，这类复杂的链接指向关系形成了网站和页面的链接网站权重。

谷歌 PR值就是这种链接关系的最主要体现之一。其他搜索引擎也都进行类似计算，虽然它们并不称为PR.

因为页面和链接数目巨大，网上的链接关系又时时处在更新中，因此链接关系及PR的计算要耗费很久。关于PR和链接剖析，后面还有专门的章节介绍。

9.特殊文件处置

除了HTML文件外，搜索引擎一般还能抓取和索引以文字为基础的多种文件种类，如PDF、Word、WPS、XLS、PPT、TXT文件等。大家在搜索结果中也常常会看到这类文件种类。但现在的搜索引擎还不可以处置图片、视频、Flash这种非文字内容，也不可以实行脚本和程序。

虽然搜索引擎在辨别图片及从Flash中提取文字内容方面有的进步，不过距离直接靠读取图片、视频、Flash内容返回结果的目的还非常远。对图片、视频内容的排名还总是是依据与之有关的文字内容，详情可以参考后面的整理搜索部分。

排名

经过搜索引擎蜘蛛抓取的界面，搜索引擎程序计算得到倒排索引后，收索引擎就筹备好可以随时处置用户搜索了。用户在搜索框填入关键词后，排名程序调用索引库数据，计算排名显示给顾客，排名过程是与顾客直接互动的。

网页名字致小白：先知道搜索引擎常识再做网站优化先知道搜索引擎常识再做网站优化本文网址：

如没特殊注明，文章均为博益网原创,转载请注明来自http://www.ziyubo.com/news/youhua/14038.html

致小白：先知道搜索引擎常识 再做网站优化