找出禁止爬行的原因-迅睿CMS框架

2021-08-21 14:26:42 CMS

找出禁止爬行的原因

一旦你知道你有一个爬虫问题，你应该做一系列的测试来找出可能的原因。被robots.txt禁止

检查您的robots.txt 文件，看看您是否阻止爬虫访问您尝试访问的网站的某些部分。这种错误很常见。

网站站长工具提供了一种简单的方法来验证您是否了解已抓取的robots.txt 的内容。

如果您的网站内容有链接（内部或外部）但由于禁止访问您的robots.txt 文件而未被搜索引擎抓取，则此报告非常有用。

解决方法很简单。在您的robots.txt 文件中查找并删除或更新禁止抓取的行，使内容不再被禁止。被机器人元标签禁止

这是页面标题中的机器人元标记：

noindex 组告诉搜索引擎不要将此页面包含在索引中。显然，一旦您发现搜索引擎没有抓取您想要抓取的特定网页，您就需要检查您是否做错了什么。

nofollow 标签还告诉搜索引擎不要将链接权重发送到链接页面。除非您点击指向您网站上特定内容的链接，否则链接权重不会发送到此页面。这告诉搜索引擎他们认为这个页面不值得，所以搜索引擎不会索引这个链接。

要解决此问题，您需要在您的网站上找到robotsmeta 标记并将其删除。机器人元标记的默认设置是“索引，关注”。您无需执行任何其他操作即可以这种方式进行设置。确保未更改默认设置。没有直接链接

某些内容可能没有链接，并且可能不会遵循这些链接。您还可以通过仅向支持cookie 的访问者显示链接，或通过加密指向您的内容的链接（这可能不是故意的）来隐藏搜索引擎中的链接。这种方法是使用纯文本（或图片）来链接内容。最好有一个第三方网站，您可以在其中链接到您的内容。表格提交要求

您必须登录或提交其他类型的表单才能查看内容。这是爬虫不爬行的另一个原因。搜索引擎不提交表单来查看以下内容：如果您希望搜索引擎索引此内容，解决方案很简单。删除表单提交要求。

会话ID 没有足够的链接权重来维护主索引。

有时候不爬的问题和我们刚才讨论的问题没有关系。搜索引擎可以查看该网页，但该网页没有足够的链接权重被纳入一级索引。这种现象比人们想象的更为普遍。这是因为搜索引擎不会索引世界上的每个网页。

例如，Google 认为不重要的内容（例如链接权重不足的内容或重复的内容）不会出现在主索引中。几年前，谷歌将这个内容降级为“补充索引”。