很多时候,我们的站点内会有大量的相似、重复页面,如果这些页面被搜索引擎收录,被搜索引擎发现一个站点有大量的重复,对于网站的排名会很不利。在这是我们就要用到robots文件,用它来屏蔽一些类似的页面,另外也可以用robots文件来帮助我们屏蔽一些个人隐私文件。
什么是robots文件?
robots.txt是一个协议,当一个搜索蜘蛛访问站点时,它会首先查看该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围。对于robots.txt文件,百度官方的建议是,仅当网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。
如果我们的网站使用了robots文件,应当把它放在网站的根目录下,即通过 你的域名/robots.txt 可以访问。并注意robots.txt的命名,都应该是小写。比如https://www.zhanghz.com/robots.txt 。
robots.txt文件的写法及注释
User-agent: * 开始配置所有搜索引擎
Disallow: /admin/ 禁止爬寻admin目录下面的目录
Disallow: /require/ 禁止爬寻require目录下面的目录
Disallow: /ABC/ 禁止爬寻ABC目录下面的目录
Disallow: /A 屏蔽A目录下的所有文件,包括文件和子目录,还屏蔽 /A*.*的文件
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以”.htm”为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有的动态页面
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 允许爬寻cgi-bin目录下面的目录
Allow: /tmp 允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以”.htm”为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
还可以在robots文件中写上网站地图的位置,这样更加利于搜索引擎的爬行和抓取。比如本博客中的
Sitemap: https://www.zhanghz.com/sitemap.xml
另外,使用robots文件还要注意不要屏蔽首页的后缀,比如:index.php、index.html等;不要写太多的星号,尽量简洁一点,以免误伤;如果网站上存在一些比较大的文件,比如:打包文件、图片文件、音频视频文件、日志文件等,可以屏蔽掉,以节省宽带。
今天就先写这些,如果还有不懂的问题,欢迎交流。
原创文章,作者:张焕振,如若转载,请注明出处:https://www.zhanghz.com/2332.html
评论列表(15条)
看了很多网站还不会做,到这里,看博主写得很详细,明白了。谢谢了。
精辟,字字分析的透彻…
我的写了不少,不过貌似对谷歌无用,收录N多页面
过来看看,巩固一下,欢迎来访
我博客有很多重复收录的,包括tag也收录,博客是Z-Blog.那robots.txt文件要怎么写。
@小虎博客:z_blog 的可以参考下卢松松和月光博客的、都很专业的。。 域名/robots.txt 就可以看到了
老知识了~~
@金筑:最近打算整理一下基础的东西。。
您的文章写的真好,我好喜欢,我会一直关注您的微薄的!
@我爱榨菜:谢谢、欢迎继续交流。。
这个还没好好玩一次。
@爱多米:可以试试。。
这个对博客的SEO很有用处呢
@洋纸钞:嗯、一定程度上可以控制蜘蛛的收录
@张焕振:有一阵子折腾过这,也许没写对。百度居然一天收录上千,疯了;更疯的是soso..好几万…让人崩溃