迅睿CMS免费开源框架
免费开源CMS
  • 首页
  • 产品动态
    • 官方公告
    • 功能介绍
    • 疑难解答
  • 产品购买
    迅睿建站程序

    迅睿CMS框架是一款PHP8高性能·简单易用的CMS开源开发框架,基于MIT开源许可协议发布,免费且不限制商业使用,是免费开源的产品,以万端互联为设计理念,支持的微信公众号、小程序、APP客户端、移动端网站、PC网站等多终端式管理系统。

    迅睿CMS产品
    迅睿建站系统
    安全加固系统
    国产化数据库
    小程序开发
    版本更新日志
    捐赠迅睿团队
    迅睿服务方案
    迅睿授权套餐
    网站服务套餐
    OEM版权套餐
    迅睿售后服务
    网站安全部署
    网站故障修复
    网站漏洞修补
    木马清理服务
    电商解决方案
    多用户商城方案
    供应链商城方案
    分销商城方案
    SAAS商城方案
    拼团/竞拍商城方案
    跨境电商方案
    品牌内购解决方案
    福利商城解决方案
    企业订货系统解决方案
    个性化定制方案
    企业官网设计
    行业网站设计
    门户网站设计
    多语言外贸网站设计
    APP小程序设计
  • 应用市场
    • 应用插件
    • 模板界面
    • 小程序
  • 源码下载
  • 开发服务
    • 开发服务
    • 提交需求
    • 官方服务
    • 开发报价
  • 技术支持
  • 帮助文档
    • 新手学习合集
    • 视频教程讲解

    • 新手入门指南
    • 后台操作教程
    • 二次开发文档
    • 插件开发文档
    • 模板制作教程
    • API接口开发
    • 插件使用教程
    • 常见问题汇总

    • 模板标签生成器
    • 自定义字段调用
    • API接口测试工具
  • 控制台

找出禁止爬行的原因

2021-08-21 14:26:42 CMS

找出禁止爬行的原因

一旦你知道你有一个爬虫问题,你应该做一系列的测试来找出可能的原因。被robots.txt禁止

检查您的robots.txt 文件,看看您是否阻止爬虫访问您尝试访问的网站的某些部分。这种错误很常见。

网站站长工具提供了一种简单的方法来验证您是否了解已抓取的robots.txt 的内容。

如果您的网站内容有链接(内部或外部)但由于禁止访问您的robots.txt 文件而未被搜索引擎抓取,则此报告非常有用。

解决方法很简单。在您的robots.txt 文件中查找并删除或更新禁止抓取的行,使内容不再被禁止。被机器人元标签禁止

这是页面标题中的机器人元标记:

noindex 组告诉搜索引擎不要将此页面包含在索引中。显然,一旦您发现搜索引擎没有抓取您想要抓取的特定网页,您就需要检查您是否做错了什么。

nofollow 标签还告诉搜索引擎不要将链接权重发送到链接页面。除非您点击指向您网站上特定内容的链接,否则链接权重不会发送到此页面。这告诉搜索引擎他们认为这个页面不值得,所以搜索引擎不会索引这个链接。

要解决此问题,您需要在您的网站上找到robotsmeta 标记并将其删除。机器人元标记的默认设置是“索引,关注”。您无需执行任何其他操作即可以这种方式进行设置。确保未更改默认设置。没有直接链接

某些内容可能没有链接,并且可能不会遵循这些链接。您还可以通过仅向支持cookie 的访问者显示链接,或通过加密指向您的内容的链接(这可能不是故意的)来隐藏搜索引擎中的链接。这种方法是使用纯文本(或图片)来链接内容。最好有一个第三方网站,您可以在其中链接到您的内容。表格提交要求

您必须登录或提交其他类型的表单才能查看内容。这是爬虫不爬行的另一个原因。搜索引擎不提交表单来查看以下内容:如果您希望搜索引擎索引此内容,解决方案很简单。删除表单提交要求。

会话ID 没有足够的链接权重来维护主索引。

有时候不爬的问题和我们刚才讨论的问题没有关系。搜索引擎可以查看该网页,但该网页没有足够的链接权重被纳入一级索引。这种现象比人们想象的更为普遍。这是因为搜索引擎不会索引世界上的每个网页。

例如,Google 认为不重要的内容(例如链接权重不足的内容或重复的内容)不会出现在主索引中。几年前,谷歌将这个内容降级为“补充索引”。


上一篇:识别搜索引擎看不到的内容
下一篇:识别可能被视为垃圾邮件的隐藏内容

Copyright © 四川迅睿云软件开发有限公司

蜀ICP备19023384号
川公网安备 51010602001037号
增值电信业务经营许可证:川B2-20211858