QQ:2569318525 QQ:2569318525
当前位置:主页 > 新闻中心 > 网站优化 >

浅谈robots.txt文件的语法和基本要领

时间:2013-06-29 23:47    来源:未知     作者:大钊     点击:
  1、User-agent 定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。如果定义百度,则是User-agent: Baiduspider;如果只向Google爬虫开放就是User-agent: Googlebot。
  2、Disallow 禁止爬取。如,我想禁止爬取我的help文件夹,那就是杭州网站建设Disallow: /help/。禁止爬取help文件夹下的shenmein.html,Disallow: /help/shenmein.html。
  3、Allow 允许。我们都知道,在默认情况下,都是允许的。那为什么还要允许这个语法呢???举个例子:我想禁止help文件夹下的所有文件,出了.杭州SEOhtml的网页,那怎么写呢?我们知道可以用Disallow一个一个禁止,但那样太费时间很精力了。这时候运用Allow就解决了复杂的问题,就这样写:Allow: /help/.html$ Disallow: /help/。
  4、$ 结束符。例:Disallow: .aspx$ 这句话的意思是,屏蔽所有的以.aspx结尾的文件,不管他前面是什么样子,/a/b/ad/ba/ddddd/eee/index.aspx 这个也是包含的。
  5、* 0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有www.6998.net的动态路径。
  懂得了上面的五点,相信robots的编写对你已经没有什么问题了。但是下面的三个注意点,你一定要记住,否则可能会前功尽弃。
  第一,先允许后禁止。百度规定要先允许后禁止,google规定要先禁止后允许。根据中文的理解,百度的说法更符合些。事实证明www.6998.net也是如此。
  第二,在User-agent,Allow,Disallow的“:”后面有一个字符的空格,看百度的robots和google的robots。
  第三,Disallow: /help/ 意思是屏蔽所有的help文件夹,不只是禁止爬取根目录下面的help文件夹,包括其他文件夹下面的文件夹,如:/a/b/help/也www.6998.net会被屏蔽掉。所以,在写屏蔽的时候一定要认真仔细。
  我们可以了解到,google屏蔽了根目录下面的places文件夹,其他的没有屏蔽。通过上面的讲解,应该解决了robots的问题了。robots的合理使用,可以给网站带来很大的作用,尤其是对网站的404错误页面。好好利用robots,把网站的优化做的更好。
 被**量群发了很大垃圾信息,导致而且目前收录的大部分都是那些垃圾页面。我们可以通过robots.txt对留言文件feedback.asp进行屏蔽,这样百度爬虫就不会抓起这些页面了。

发布站点:意大利网站建设米兰做网站意大利网站优化
本文地址:http://www.huaxia.it/seo/20130629692.html
Copyright 2009-2022  画侠网络工作室版权所有  E-mail: admin@huaxia.it  客服QQ:792/02.61.72  手机:389-9265-八一七