找出禁止爬行的原因
一旦你知道你有一个爬虫问题,你应该做一系列的测试来找出可能的原因。被robots.txt禁止
检查您的robots.txt 文件,看看您是否阻止爬虫访问您尝试访问的网站的某些部分。这种错误很常见。
网站站长工具提供了一种简单的方法来验证您是否了解已抓取的robots.txt 的内容。
如果您的网站内容有链接(内部或外部)但由于禁止访问您的robots.txt 文件而未被搜索引擎抓取,则此报告非常有用。
解决方法很简单。在您的robots.txt 文件中查找并删除或更新禁止抓取的行,使内容不再被禁止。被机器人元标签禁止
这是页面标题中的机器人元标记:
noindex 组告诉搜索引擎不要将此页面包含在索引中。显然,一旦您发现搜索引擎没有抓取您想要抓取的特定网页,您就需要检查您是否做错了什么。
nofollow 标签还告诉搜索引擎不要将链接权重发送到链接页面。除非您点击指向您网站上特定内容的链接,否则链接权重不会发送到此页面。这告诉搜索引擎他们认为这个页面不值得,所以搜索引擎不会索引这个链接。
要解决此问题,您需要在您的网站上找到robotsmeta 标记并将其删除。机器人元标记的默认设置是“索引,关注”。您无需执行任何其他操作即可以这种方式进行设置。确保未更改默认设置。没有直接链接
某些内容可能没有链接,并且可能不会遵循这些链接。您还可以通过仅向支持cookie 的访问者显示链接,或通过加密指向您的内容的链接(这可能不是故意的)来隐藏搜索引擎中的链接。这种方法是使用纯文本(或图片)来链接内容。最好有一个第三方网站,您可以在其中链接到您的内容。表格提交要求
您必须登录或提交其他类型的表单才能查看内容。这是爬虫不爬行的另一个原因。搜索引擎不提交表单来查看以下内容:如果您希望搜索引擎索引此内容,解决方案很简单。删除表单提交要求。
会话ID 没有足够的链接权重来维护主索引。
有时候不爬的问题和我们刚才讨论的问题没有关系。搜索引擎可以查看该网页,但该网页没有足够的链接权重被纳入一级索引。这种现象比人们想象的更为普遍。这是因为搜索引擎不会索引世界上的每个网页。
例如,Google 认为不重要的内容(例如链接权重不足的内容或重复的内容)不会出现在主索引中。几年前,谷歌将这个内容降级为“补充索引”。