张焕振:怎么正确撰写robots文件

很多时候,我们的站点内会有大量的相似、重复页面,如果这些页面被搜索引擎收录,被搜索引擎发现一个站点有大量的重复,对于网站的排名会很不利。在这是我们就要用到robots文件,用它来屏蔽一些类似的页面,另外也可以用robots文件来帮助我们屏蔽一些个人隐私文件。

什么是robots文件?

robots.txt是一个协议,当一个搜索蜘蛛访问站点时,它会首先查看该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围。对于robots.txt文件,百度官方的建议是,仅当网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

如果我们的网站使用了robots文件,应当把它放在网站的根目录下,即通过 你的域名/robots.txt 可以访问。并注意robots.txt的命名,都应该是小写。比如https://www.zhanghz.com/robots.txt 。

robots.txt文件的写法及注释

User-agent: *          开始配置所有搜索引擎
Disallow: /admin/       禁止爬寻admin目录下面的目录
Disallow: /require/      禁止爬寻require目录下面的目录
Disallow: /ABC/          禁止爬寻ABC目录下面的目录
Disallow: /A                屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
Disallow: /cgi-bin/*.htm      禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?*       禁止访问网站中所有的动态页面
Disallow: /.jpg$       禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html        禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/     允许爬寻cgi-bin目录下面的目录
Allow: /tmp          允许爬寻tmp的整个目录
Allow: .htm$    仅允许访问以”.htm”为后缀的URL。
Allow: .gif$      允许抓取网页和gif格式图片

还可以在robots文件中写上网站地图的位置,这样更加利于搜索引擎的爬行和抓取。比如本博客中的

Sitemap: https://www.zhanghz.com/sitemap.xml

另外,使用robots文件还要注意不要屏蔽首页的后缀,比如:index.php、index.html等;不要写太多的星号,尽量简洁一点,以免误伤;如果网站上存在一些比较大的文件,比如:打包文件、图片文件、音频视频文件、日志文件等,可以屏蔽掉,以节省宽带。

今天就先写这些,如果还有不懂的问题,欢迎交流。

原创文章,作者:张焕振,如若转载,请注明出处:https://www.zhanghz.com/2332.html

(0)
上一篇 2012年11月27日 下午12:01
下一篇 2012年12月8日 下午1:08

相关推荐

评论列表(15条)

  • 友力哥
    友力哥 2013年4月28日 上午3:02

    看了很多网站还不会做,到这里,看博主写得很详细,明白了。谢谢了。

  • 瑞士军工
    瑞士军工 2013年4月25日 下午9:52

    精辟,字字分析的透彻…

  • 那不是我
    那不是我 2012年12月13日 下午11:02

    我的写了不少,不过貌似对谷歌无用,收录N多页面

  • 霍致永博客
    霍致永博客 2012年12月8日 下午1:46

    过来看看,巩固一下,欢迎来访

  • 小虎博客
    小虎博客 2012年12月8日 上午12:45

    我博客有很多重复收录的,包括tag也收录,博客是Z-Blog.那robots.txt文件要怎么写。

    • 张焕振
      张焕振 2012年12月8日 上午11:15

      @小虎博客z_blog 的可以参考下卢松松和月光博客的、都很专业的。。 域名/robots.txt 就可以看到了

  • 金筑
    金筑 2012年12月7日 下午1:44

    老知识了~~

    • 张焕振
      张焕振 2012年12月7日 下午4:27

      @金筑最近打算整理一下基础的东西。。

  • 我爱榨菜
    我爱榨菜 2012年12月7日 上午10:52

    您的文章写的真好,我好喜欢,我会一直关注您的微薄的!

  • 爱多米
    爱多米 2012年12月7日 上午1:16

    这个还没好好玩一次。

  • 洋纸钞
    洋纸钞 2012年12月6日 下午6:16

    这个对博客的SEO很有用处呢

    • 张焕振
      张焕振 2012年12月6日 下午10:01

      @洋纸钞嗯、一定程度上可以控制蜘蛛的收录

    • 雅岚
      雅岚 2012年12月11日 下午6:57

      @张焕振有一阵子折腾过这,也许没写对。百度居然一天收录上千,疯了;更疯的是soso..好几万…让人崩溃