识别链接农场
链接农场是作弊者精心构建起来的页面链接关系,和正常的链接必然有不同之处。很多研究通过比较正常网页之间链接关系的统计规律,同时研究链接农场网页之间的链接关系分布规律,通过比较两者之间的差异来识别链接农场。
识别算法比较常用的统计特征包括如下几条。
1.网页出链的统计分布规律,正常网页的出链满足Power-law分布,作弊网页的出链违反该分布。
2.网页入链的统计分布规律,正常网页的入链也满足Power-law分布,作弊网页则违反该分布。
3.URL名称统计特征,作弊网页的网址倾向于较长,包含更多的点画线和数字等。
4.很多作弊网页的URL地址尽管不同,但是常常会对应同一个IP地址。
5.网页特征会随着时间变化,比如入链的增长率、出链的增长率等,正常网页和作弊网页在这些变化模式上是不同的。
除了对比统计特征外,还可以利用链接农场的结构特征。链接农场的一个结构特征是农场内的网页之间链接关系非常紧密,这也是可以直接用来进行作弊识别的特征。使用一些紧密链接子图自动发现算法,可以识别出这些紧密链接的页面子图,研究表明这种紧密链接子图中很大比例确实是由作弊网页构成的。