基于网页链接的通用辨别方法。前面介绍的垃圾网页辨别技术并不具备通用性,而且很被动,一直等到出现一种作弊方法后才针对性的使用一种相应的弥补手段,有的事后诸葛亮的做法。而下面要介绍的基于链接结构与稍后介绍的机器学习分类法与作弊方法均无关,具备非常强的通用性。 Trust Rank算法是一种基于链接结构的用来辨别垃圾网页的经典算法。这个算法的假设条件是页面A链接到页面B则意味着页面A推荐页面B的内容,因此页面A的Trust Rank值可以传递分配一部分给页面B。也就是说水平高的网页一般只能被水平更高的网页链接指向。
于是可以先构建少量的拥有较高权威内容或者较多出链接的知名网页作为起点种子网页,然后将它们的Trust Rank值根据出链接数目比率传递分配到第二层页面,根据同样的办法将Trust Rank值传递分配到3、四层,以此类推。如此,一般越离得远远的第一层种子网页的Trust Rank值越小,越大概是垃圾网页。于是可以设定一个阈值,当低于这个值时将它判断为垃圾页面。