robots.txt 优化

robots-txt

robots.txt 是放置于域名根目录的一个文本文件,其作用是”声明站内规则”,即告诉搜索引擎一个站点中哪些内容它可以抓取,而哪些不能。站长通过向 robots.txt 写入规则来和搜索引擎”沟通”,以此保证站点的内容能够按照自己的意愿出现在搜索引擎当中(百度只部分遵守)。搜索引擎爬虫开始抓取一个网站,它们首先做的事情便是读取这个网站的 robots.txt,根据 WordPress 的特性,SEO 必须从 robots.txt 做起。

站长们往往都希望搜索引擎经常光顾自己的网站,seoer们则更加希望搜索引擎爬行网站的每个网页。但朋友们请不要忘记,网站中有些很敏感的数据是不宜被人家知道的,比如数据库存放的目录或者管理后台的地址,这时候我们就需要使用 robots.txt 文件了。

不过,具体 robots.txt 里面怎么写,不同的人有不同的说法,甚至不少人主张所有都不拦截,不过大部分人还是选择了部分可能会影响到隐私以及SEO的内容设置了Disallow。下面是我的 robots.txt:

User-agent: *

Disallow: /wp-

Disallow: /feed/

Disallow: /page/

Disallow: /comments/

Disallow: /trackback/

Sitemap: http://www.veryls.com/sitemap.xml

1. User-agent 即搜索引擎的爬虫,以星号(*)匹配,表明之后的规则通用于所有搜索引擎。如果需要针对单独的搜索引擎制定规则,则需要写出该搜索引擎爬虫的具体名称,例如 Baiduspider 。

2. 不允许抓取 /wp- 。这是一个省略的写法,完整的意思是不允许抓取域名根目录下所有以 “wp-” 开头的文件和文件夹,名称为 “wp-” 的文件夹都是 WordPress 的系统文件,给搜索引擎抓了去没好处。

3. 不允许抓取 /feed/ /page/ /comments/ /trackback/ 则都是为了搜索引擎优化,防止过多的相同内容页面分散权重。

4. 声明 sitemap 所在地。其实这并不是一个必须的条目,不过写上可以让搜索引擎对 sitemap.xml 的读取更频繁一些。

由于我也是刚刚了解到这块,今天特意去论坛看了好多帖子以及参考了网上许多人的说法,但是不同的人有不同的见解,而且好多差别还很大,最后综合了一些比较统一的部分,如果有不对的地方还望比较懂得大大们指点一下呀。



---- 相关文章 ----------------------------------------------------

您可以RSS 2.0订阅。 留言,或者引用 Trackback

2条评论 »

 
 

发表评论