人亦已歌 发表于 2023-6-23 16:26:26

robots文件的书写及规范案例,只有5%的人懂得这个方法

<p>
        什么是robots?
</p>
<p>
        简单说,robots就是你和蜘蛛签订的一份文件,就是告诉爬虫网站上哪些内容可以收录,哪些内容不需要收录。
</p>
<p style="text-align:center;">
        <img alt="robots文件的书写及规范案例" src="/wp-content/uploads/2019/09/20190926104315_67774.png" title="?tle插图?m" />
</p>
<p>
        robots的作用
</p>
<p>
        1:设置访问权限保护网站安全。
</p>
<p>
        2:禁止搜索引擎爬取无效页面,集中权值到主要页面(对SEO方面重要原因)。
</p>
<p>
        robots文件放在哪
</p>
<p>
        robots.txt可以通过FTP工具直接放置在网站根目录。
</p>
<p>
        放置后可通过:①域名/robote.txt 方式查看。②通过百度站长工具查看检测。
</p>
<p>
        robots的文件格式
</p>
<p>
        User-agent:该项的值用于描述搜索引擎robot的名字
</p>
<p>
        Disallow:该项的值用于描述不希望被抓取的URL链接
</p>
<p>
        Allow:该项的值用于描述希望被抓取的URL链接
</p>
<p>
        $ 通配符:匹配URL结尾的字符
</p>
<p>
        * 通配符:匹配0个或多个任意字符
</p>
<p>
        通过以上命令可以组合多种写法,允许哪个搜索引擎访问或禁止哪个页面。
</p>
<p>
        百度官方文件:https://ziyuan.baidu.com/college/articleinfo?id=1516
</p>
<p>
        robots示例
</p>
<p>
        1、禁止搜索引擎抓取特定目录
</p>
<p>
        在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
</p>
<p>
        User-agent: *Disallow: /admin/Disallow: /tmp/Disallow: /abc/
</p>
<p>
        2、禁止admin目录,但允许抓取admin目录下的seo子目录
</p>
<p>
        User-agent: *Allow: /admin/seo/Disallow: /admin/
</p>
<p>
        3、禁止抓取/abc/目录下的所有以”.htm”为后缀的URL(包含子目录)
</p>
<p>
        User-agent: *Disallow: /abc/*.htm$
</p>
<p>
        4、禁止抓取网站中所有的动态页面
</p>
<p>
        User-agent: *Disallow: /*?*
</p>
<p>
        屏蔽所有带“?”的文件,这样就屏蔽所有的动态路径。
</p>
<p>
        5、禁止百度蜘蛛抓取网站所有的图片:
</p>
<p>
        User-agent: BaiduspiderDisallow: /*.jpg$Disallow: /*.jpeg$Disallow: /*.gif$Disallow: /*.png$Disallow: /*.bmp$
</p>
<p>
        6、要在阻止网站页面被抓取的同时仍然在这些页面上显示 AdSense 广告
</p>
<p>
        User-agent: *Disallow: /folder1/
</p>
<p>
        User-agent: Mediapartners-GoogleAllow: /folder1/
</p>
<p>
        什么时候需要robots协议
</p>
<p>
        1:无用页面:如联系我们、用户协议等页面,这些页面相对于搜索引擎优化来讲,作用不大,此时可以使用Disallow命令禁止这些页面被搜索引擎抓取。
</p>
<p>
        2:动态页面:企业类型站点屏蔽动态页面,有利于网站安全。且多个网址访问同一页面,会造成权重分散。因此,一般情况下,屏蔽动态页面,保留静态或伪静态页面。
</p>
<p>
        3:网站后台页面:网站后台也可以归类于无用页面,禁止收录有百益而无一害。
</p>
<p>
        robots补充-关于sitemap
</p>
<p>
        把sitemap的位置信息放在robots.txt里,利用sitemap里的信息搜索引擎可以更加智能地抓取网站内容。
</p>
页: [1]
查看完整版本: robots文件的书写及规范案例,只有5%的人懂得这个方法