浅谈robots.txt文件的语法和基本要领
时间:2013-06-29 23:47 来源:未知 作者:大钊 点击:次
1、User-agent 定义搜索引擎。一般情况下,网站里面都是:User-agent: *,这里*的意思是所有,表示定义所有的搜索引擎。如果定义百度,则是User-agent: Baiduspider;如果只向Google爬虫开放就是User-agent: Googlebot。
2、Disallow 禁止爬取。如,我想禁止爬取我的help文件夹,那就是杭州网站建设Disallow: /help/。禁止爬取help文件夹下的shenmein.html,Disallow: /help/shenmein.html。
3、Allow 允许。我们都知道,在默认情况下,都是允许的。那为什么还要允许这个语法呢???举个例子:我想禁止help文件夹下的所有文件,出了.杭州SEOhtml的网页,那怎么写呢?我们知道可以用Disallow一个一个禁止,但那样太费时间很精力了。这时候运用Allow就解决了复杂的问题,就这样写:Allow: /help/.html$ Disallow: /help/。
4、$ 结束符。例:Disallow: .aspx$ 这句话的意思是,屏蔽所有的以.aspx结尾的文件,不管他前面是什么样子,/a/b/ad/ba/ddddd/eee/index.aspx 这个也是包含的。
5、* 0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有www.6998.net的动态路径。
懂得了上面的五点,相信robots的编写对你已经没有什么问题了。但是下面的三个注意点,你一定要记住,否则可能会前功尽弃。
第一,先允许后禁止。百度规定要先允许后禁止,google规定要先禁止后允许。根据中文的理解,百度的说法更符合些。事实证明www.6998.net也是如此。
第二,在User-agent,Allow,Disallow的“:”后面有一个字符的空格,看百度的robots和google的robots。
第三,Disallow: /help/ 意思是屏蔽所有的help文件夹,不只是禁止爬取根目录下面的help文件夹,包括其他文件夹下面的文件夹,如:/a/b/help/也www.6998.net会被屏蔽掉。所以,在写屏蔽的时候一定要认真仔细。
我们可以了解到,google屏蔽了根目录下面的places文件夹,其他的没有屏蔽。通过上面的讲解,应该解决了robots的问题了。robots的合理使用,可以给网站带来很大的作用,尤其是对网站的404错误页面。好好利用robots,把网站的优化做的更好。
被**量群发了很大垃圾信息,导致而且目前收录的大部分都是那些垃圾页面。我们可以通过robots.txt对留言文件feedback.asp进行屏蔽,这样百度爬虫就不会抓起这些页面了。
发布站点:意大利网站建设,米兰做网站,意大利网站优化
本文地址:http://www.huaxia.it/seo/20130629692.html
2、Disallow 禁止爬取。如,我想禁止爬取我的help文件夹,那就是杭州网站建设Disallow: /help/。禁止爬取help文件夹下的shenmein.html,Disallow: /help/shenmein.html。
3、Allow 允许。我们都知道,在默认情况下,都是允许的。那为什么还要允许这个语法呢???举个例子:我想禁止help文件夹下的所有文件,出了.杭州SEOhtml的网页,那怎么写呢?我们知道可以用Disallow一个一个禁止,但那样太费时间很精力了。这时候运用Allow就解决了复杂的问题,就这样写:Allow: /help/.html$ Disallow: /help/。
4、$ 结束符。例:Disallow: .aspx$ 这句话的意思是,屏蔽所有的以.aspx结尾的文件,不管他前面是什么样子,/a/b/ad/ba/ddddd/eee/index.aspx 这个也是包含的。
5、* 0或多个任意字符。例:Disallow: *?* 这里的意思是屏蔽所有带“?”文件,也是屏蔽所有www.6998.net的动态路径。
懂得了上面的五点,相信robots的编写对你已经没有什么问题了。但是下面的三个注意点,你一定要记住,否则可能会前功尽弃。
第一,先允许后禁止。百度规定要先允许后禁止,google规定要先禁止后允许。根据中文的理解,百度的说法更符合些。事实证明www.6998.net也是如此。
第二,在User-agent,Allow,Disallow的“:”后面有一个字符的空格,看百度的robots和google的robots。
第三,Disallow: /help/ 意思是屏蔽所有的help文件夹,不只是禁止爬取根目录下面的help文件夹,包括其他文件夹下面的文件夹,如:/a/b/help/也www.6998.net会被屏蔽掉。所以,在写屏蔽的时候一定要认真仔细。
我们可以了解到,google屏蔽了根目录下面的places文件夹,其他的没有屏蔽。通过上面的讲解,应该解决了robots的问题了。robots的合理使用,可以给网站带来很大的作用,尤其是对网站的404错误页面。好好利用robots,把网站的优化做的更好。
被**量群发了很大垃圾信息,导致而且目前收录的大部分都是那些垃圾页面。我们可以通过robots.txt对留言文件feedback.asp进行屏蔽,这样百度爬虫就不会抓起这些页面了。
发布站点:意大利网站建设,米兰做网站,意大利网站优化
本文地址:http://www.huaxia.it/seo/20130629692.html
- 上一篇:网站建设与优化关键字是优化的重点
- 下一篇:提高网站权重的个人再次分析如下