识别链接农场-迅睿CMS框架

2021-08-31 15:26:39 CMS

识别链接农场

链接农场是作弊者精心构建起来的页面链接关系，和正常的链接必然有不同之处。很多研究通过比较正常网页之间链接关系的统计规律，同时研究链接农场网页之间的链接关系分布规律，通过比较两者之间的差异来识别链接农场。

识别算法比较常用的统计特征包括如下几条。

1．网页出链的统计分布规律，正常网页的出链满足Power-law分布，作弊网页的出链违反该分布。

2．网页入链的统计分布规律，正常网页的入链也满足Power-law分布，作弊网页则违反该分布。

3．URL名称统计特征，作弊网页的网址倾向于较长，包含更多的点画线和数字等。

4．很多作弊网页的URL地址尽管不同，但是常常会对应同一个IP地址。

5．网页特征会随着时间变化，比如入链的增长率、出链的增长率等，正常网页和作弊网页在这些变化模式上是不同的。

除了对比统计特征外，还可以利用链接农场的结构特征。链接农场的一个结构特征是农场内的网页之间链接关系非常紧密，这也是可以直接用来进行作弊识别的特征。使用一些紧密链接子图自动发现算法，可以识别出这些紧密链接的页面子图，研究表明这种紧密链接子图中很大比例确实是由作弊网页构成的。