张焕振:怎么正确撰写robots文件

很多时候,我们的站点内会有大量的相似、重复页面,如果这些页面被搜索引擎收录,被搜索引擎发现一个站点有大量的重复,对于网站的排名会很不利。在这是我们就要用到robots文件,用它来屏蔽一些类似的页面,另外也可以用robots文件来帮助我们屏蔽一些个人隐私文件。

什么是robots文件?

robots.txt是一个协议,当一个搜索蜘蛛访问站点时,它会首先查看该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围。对于robots.txt文件,百度官方的建议是,仅当网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

如果我们的网站使用了robots文件,应当把它放在网站的根目录下,即通过 你的域名/robots.txt 可以访问。并注意robots.txt的命名,都应该是小写。比如https://www.zhanghz.com/robots.txt 。

robots.txt文件的写法

User-agent: *          开始配置所有搜索引擎
Disallow: /admin/       禁止爬寻admin目录下面的目录
Disallow: /require/      禁止爬寻require目录下面的目录
Disallow: /ABC/          禁止爬寻ABC目录下面的目录
Disallow: /A                屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
Disallow: /cgi-bin/*.htm      禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?*       禁止访问网站中所有的动态页面
Disallow: /.jpg$       禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html        禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/     允许爬寻cgi-bin目录下面的目录
Allow: /tmp          允许爬寻tmp的整个目录
Allow: .htm$    仅允许访问以”.htm”为后缀的URL。
Allow: .gif$      允许抓取网页和gif格式图片

还可以在robots文件中写上网站地图的位置,这样更加利于搜索引擎的爬行和抓取。比如本博客中的

Sitemap: https://www.zhanghz.com/sitemap.xml
Sitemap: https://www.zhanghz.com/sitemap_baidu.xml

另外,使用robots文件还要注意不要屏蔽首页的后缀,比如:index.php、index.html等;不要写太多的星号,尽量简洁一点,以免误伤;如果网站上存在一些比较大的文件,比如:打包文件、图片文件、音频视频文件、日志文件等,可以屏蔽掉,以节省宽带。

今天就先写这些,如果还有不懂的问题,欢迎交流。

原创文章,作者:张焕振,如若转载,请注明出处:https://www.zhanghz.com/2332.html

(0)
上一篇 2012年11月27日 下午12:01
下一篇 2012年12月8日 下午1:08

相关推荐

  • 张焕振:借书网站为站长带来新的盈利模式

    来自北京商报消息:当传统的图书馆与我们快节奏的生计渐行渐远时,书本更新快、担任上门送取的借书网站却悄然兴起。 各大借书网站当前曾经可以向全国27个城市的100多万用户供给免费借书效…

    老文章 2012年8月6日
  • 张焕振:惰性

    自从年前留下一篇日志说今年会继续更新以后,就这么没心没肺的拖到现在。算算时间有五个月了, 一直还在关注我的应该也算是真爱了吧。

    从这个方面来说,也是好事,为什么?

    可以筛选出真正的粉丝;可以知道谁还在关注你;也可以给自己一个反省的时间。

    老文章 2015年7月1日
  • 张焕振:试试WP评论插件多说

    近段时间,社会化评论系统如雨后春笋一般步入了各个独立博客,通过社交化评论框,可以把各社交网站引入到网页中来,用户登录系统也有助于加强用户黏性,慢慢形成博客主自己的一个小社区。 独立…

    老文章 2012年3月13日
  • 张焕振:浅析SEO的关键词研究和布局

    我们平常说SEO的工作,一般有这几个方面:从市场竞争研究到页面的优化、到网站结构的优化,外链,到后期的监控。今天主要和大家分享一下市场及竞争对手的研究。SEO是网络营销的一部分、网…

    老文章 2013年11月24日
  • 张焕振:在线答疑笔记(1)

    刚到家!正好赶上在线答疑,把主要内容整理了下,这是整理的笔记。问:我在广州做野生蓝莓酒饮项目,请问如何精准定位目标客户群体?如何吸引更多客户?如何进行有效的线上推广? 答:蓝莓酒有…

    老文章 2015年2月6日
  • 张焕振:写在博客一周年之际

    两年前曾用Z-Blog建过一个博客,还记得当时花50大洋买的域名www.z691691.com,那也是我的第一个域名。后来由于各种原因没做下去,就给关了。直到去年五月份,买了现在这…

    老文章 2012年6月30日
  • 张焕振:SEO很强悍的优化口诀

    准备篇:网络行业千千万,确定主题是关键。空间域名带bei案,快速稳定是首选。 建设篇:链接结构要整齐,树形网状是第一。内部链接做到底,平行垂直都考虑。 内容篇:添加内容莫心急,长尾…

    老文章 2011年8月28日
  • 张焕振:从莆田生活网ptshw来看第三方百度权重

    虽然传言说百度要出自己的官方权重了,但到目前为止,大家对百度权重的查询还是主要依靠chinaz和爱站网等第三方查询工具。那么,第三方查询的结果靠不靠谱呢?今天我们就以网上盛传的“莆…

    老文章 2012年7月31日
  • 张焕振:利用论坛推广增加自己的知名度

    我的小站建立了也有一段时间了,下一步在保持内容更新的前提下,我打算发展一下网站推广,一来能增加小站的外链,二来也能提高一下知名度。除了在各大门户类站点投稿外,论坛推广是一个不错的选择。我这几天研究了一下论坛推广的技巧和方法,在这里和大家分享一下,也算是这几天的一个报告吧。

    老文章 2011年8月13日
  • 张焕振:站长投诉中心助站长恢复site值

    从上个月的622事件和628事件开始,百度与站长们的矛盾就越演越烈。本月初,百度发了一条名曰“针对低质量站点的措施已经生效”的官方公告,虽然说的是打击非原创、采集类和过度SEO的站…

    老文章 2012年7月22日

评论列表(17条)

  • 羊饲料
    羊饲料 2013年6月18日 下午1:54

    看了博主的robots.txt,感觉不错,博主能看看我的robots.txt写的是否正确。www.yy58.org/robots.txt

  • 友力哥
    友力哥 2013年4月28日 上午3:02

    看了很多网站还不会做,到这里,看博主写得很详细,明白了。谢谢了。

  • 瑞士军工 2013年4月25日 下午9:52

    精辟,字字分析的透彻…

  • 高清 2013年4月15日 上午1:05

    分析的很透彻,很欣赏你的看法,学习了。…

  • 那不是我
    那不是我 2012年12月13日 下午11:02

    我的写了不少,不过貌似对谷歌无用,收录N多页面

  • 霍致永博客
    霍致永博客 2012年12月8日 下午1:46

    过来看看,巩固一下,欢迎来访

  • 小虎博客
    小虎博客 2012年12月8日 上午12:45

    我博客有很多重复收录的,包括tag也收录,博客是Z-Blog.那robots.txt文件要怎么写。

    • 小Z_
      张焕振 2012年12月8日 上午11:15

      @小虎博客z_blog 的可以参考下卢松松和月光博客的、都很专业的。。 域名/robots.txt 就可以看到了

  • 金筑
    金筑 2012年12月7日 下午1:44

    老知识了~~

    • 小Z_
      张焕振 2012年12月7日 下午4:27

      @金筑最近打算整理一下基础的东西。。

  • 我爱榨菜
    我爱榨菜 2012年12月7日 上午10:52

    您的文章写的真好,我好喜欢,我会一直关注您的微薄的!

  • 爱多米
    爱多米 2012年12月7日 上午1:16

    这个还没好好玩一次。

  • 洋纸钞
    洋纸钞 2012年12月6日 下午6:16

    这个对博客的SEO很有用处呢

    • 小Z_
      张焕振 2012年12月6日 下午10:01

      @洋纸钞嗯、一定程度上可以控制蜘蛛的收录

    • 雅岚
      雅岚 2012年12月11日 下午6:57

      @张焕振有一阵子折腾过这,也许没写对。百度居然一天收录上千,疯了;更疯的是soso..好几万…让人崩溃