启动与万维网的静态结构。如果万维网被定义为与网页为节点和链接作为边界的相互连接的图形,然后任何网页能够被其他网页链接。这种类型的链接被称为“反向”。链接“(反向链接)。该网页还可以链接到其他网页,这样的链接被称为”正向链路“(”通“的简称)。
布罗德用一个有趣的随机启动BFS(广度优先搜索)实验随机获得570个网页作为启动节点,并与这些570次的网页一一尝试。首先,将正方向(前进方向)上宽度第一横向采用(宽度第一行进方法将在后面检索),即,行程根据web页面的页面web上的链路进行。然后使用宽度第一向后行进,即,根据来自所述网页的网页反向链接行进。例如,如果网页A包含一个链接到网页B,从网页A开始,前进路径可能会通过网页B;从网页B开始,反向路径可以顺利通过网页A.
通过实验,发现正向或反向,它显示了完全不同的旅游效应。或穿过一个非常小的结果集后,演练结束(在90的病例的检测集合的大小不超过90个节点,在极端的情况下,只有几万网页);或约100万个网页爆炸,但没有检测到全部186万个节点。此外,对于起点的一部分,大约有100万个网页,可以不管它是向前或向后的旅程检测起点的这部分属于SCC部分下面提到。通过实验数据,布罗德的结论是,万维网具有领结结构。
网页分为以下4种类型,其中每一个代表约1/4。
(1)的拱(SCC,强连通分量)的中间部分。
这些类型的网页相互连接,而网页数量有限的任意拆卸不会影响它们的连接。随机启动的起点BFS演练实验是选择网页的一部分,并采用前演练方法。从统计学的角度来看,你可以遍历网页,占总网页的3/4的数量;反向遍历方法也可以经过大约相同数量的页面。
(2)在拱形(IN)的左侧部分。
这个到中心部分(SCC)和类型的网页点被称为“目录网页”(中央页),其通常被称为导航网页。作为随机启动的起点BFS演练实验选择网页的这一部分。向前滚动方法可以遍历全部网页的3/4;反向遍历方法只能遍历的网页的数目非常有限。它可以忽略不计。
(3)将拱(OUT)的右边部分。
这种类型的网页是由中央部分指定和被称为“权威页面”(权威页)。这些网页被引用了很多,这意味着大多数的网页具有高度的“承认”了他们。随机启动的起点BFS演练实验是选择网页的这一部分。向前遍历方法只能遍历网页数量有限;反向遍历方法可以遍历所有网页的3/4。
(4)拱卷须。
这种类型的网页似乎从链接留给其他网页或其他网页链接到左到右右或直接链接,而一小部分没有链接到中间,向左或向右(没有盘部件连接)。随机启动的起点BFS演练实验是选择网页的这一部分。无论使用哪种方法之旅,只有网页的数量有限,可以被穿越。
以下两个结论是从万维网的结构特征绘制。
(1)尽可能,抓取工具选择在中间部分作为初始组URL到横越的领结或网页的左侧部分,使得遍历效果是尽可能完全的。如果你选择的权利或网页作为始节点,只有网页的数量有限,可以被抓取。
(2)网页分为目录网页和授权网页。目录网页为普通网民服务,方便网民点击继续浏览更多网页。这部分网页对于深度抓取授权网页非常重要;授权网页是位于拱门中间或右侧的网页。这种类型的网页有大量的反向链接,而直接链接的数量相对较少。班级网页更重要。