robots.txt的具体用途
一般都说robots.txt文件可以用来屏蔽不想被搜索引擎抓取的页面,但是这些“不想被抓取的页面”一般是指什么呢?下面是一些简单的例子。
(1) 在多版本URL 的情况下,非主导URL 的其他版本。比如网站链接伪静态后,不希望搜索引擎走动态版。现在,您可以使用robots.txt 阻止网站上的所有动态链接。
(2)如果网站上有大量交叉连接查询产生的页面,那肯定是大量没有内容的页面。对于没有内容的页面,可以配置单独的url功能,然后使用robots.txt。 txt 来阻止以避免搜索。引擎认为该网站创建了垃圾邮件页面。
(3) 如网站因故改版或突然删除大量页面,则众所周知。网站突然出现大量死链接,不利于网站在搜索引擎中的表现。虽然现在可以直接向百度发送死链接,但最好是屏蔽百度对死链接的跟踪,这样理论上百度不会突然发现网站死链接太多,或者两者兼而有之。当然,站长自己最好清理站内的死链。
(4) 如果网站具有类似UGC的功能,为增加用户提供内容的积极性,不禁止用户在内容中混入链接。这时,为了防止这些链接浪费网站权重或牵连网站,可以将这些链接变成网站上的跳转链接,然后使用robots.txt进行拦截。现在很多论坛都这样做了。
(5) 不希望搜索引擎索引的日常内容,如隐私数据、用户信息、后台页面管理等,可以使用robots.txt进行屏蔽。
以上是常用的robots.txt函数。正确使用robots.txt不仅可以保护网站隐私,还可以向搜索引擎展示网站高质量的一面。同时,它还可以使搜索引擎抓取的页面多于允许拖动的页面。但是站长和SEO人员要慎重考虑是否将地址后台写入robots.txt文件中。现在很多黑客经常扫描各个网站的后台地址。 如果直接在robots.txt中输入地址后台,相当于直接告诉你黑客网站的地址后台;此外,现在只有谷歌支持机器人。 txt 声明站点地图地址。百度不支持,站长现在可以通过GoogleWebmaster提交站点地图,所以使用robots.txt文件来声明网站。另外,SEO人员不应该被robots.txt文件本身的原始功能所限制。把它摊开,多思考。例如,防止搜索引擎注意到,防止搜索引擎抓取暴露网站缺陷的页面上的链接;提高网站在搜索引擎等眼中的整体质量,防止搜索引擎抓取页面。没有搜索价值。