什么是robots?
简单说,robots就是你和蜘蛛签订的一份文件,就是告诉爬虫网站上哪些内容可以收录,哪些内容不需要收录。
robots的作用
1:设置访问权限保护网站安全。
2:禁止搜索引擎爬取无效页面,集中权值到主要页面(对SEO方面重要原因)。
robots文件放在哪
robots.txt可以通过FTP工具直接放置在网站根目录。
放置后可通过:①域名/robote.txt 方式查看。②通过百度站长工具查看检测。
robots的文件格式
User-agent:该项的值用于描述搜索引擎robot的名字
Disallow:该项的值用于描述不希望被抓取的URL链接
Allow:该项的值用于描述希望被抓取的URL链接
$ 通配符:匹配URL结尾的字符
* 通配符:匹配0个或多个任意字符
通过以上命令可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。
百度官方文件:https://ziyuan.bAIdu.com/college/articleinfo?id=1516
robots示例
1、禁止搜索引擎抓取特定目录
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
User-agent: *Disallow: /admin/Disallow: /tmp/Disallow: /abc/
2、禁止admin目录,但允许抓取admin目录下的seo子目录
User-agent: *Allow: /admin/seo/Disallow: /admin/
3、禁止抓取/abc/目录下的所有以”.htm”为后缀的URL(包含子目录)
User-agent: *Disallow: /abc/*.htm$
4、禁止抓取网站中所有的动态页面
User-agent: *Disallow: /*?*
屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。
5、禁止百度蜘蛛抓取网站所有的图片:
User-agent: BaiduspiderDisallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$
6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告
User-agent: *Disallow: /folder1/
User-agent: Mediapartners-GoogleAllow: /folder1/
什么时候需要robots协议
1:无用页面:如联系我们、用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时可以使用Disallow命令禁止这些页面被搜索引擎抓取。
2:动态页面:企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。
3:网站后台页面:网站后台也可以归类于无用页面,禁止收录有百益而无一害。
robots补充-关于sitemap
把sitemap的位置信息放在robots.txt里,利用sitemap里的信息搜索引擎可以更加智能地抓取网站内容。
|