查找引擎优化入门第38课:什么是robots.txt?robots.txt写法与 |
发布时间:2018-08-17 文章来源:本站 浏览次数:2966 |
什么是robots.txt?robots.txt写法与查找引擎优化的联系? 什么是robots.txt呢?它是咱们网站上的一个文件。有的网站上没有,也没有联系。这个文件起到的效果是通知查找引擎,哪个文件能够查看,哪个文件不能够查看。查找引擎应当恪守这样的规矩。 关于研讨查找引擎优化的高手来说,这是自己网站上一个很有用的文件。关于咱们初学者来说,能够先了解一下就和,不用深究,今后在学习和实践中会慢慢地就会有较深化地了解了。 当查找引擎拜访一个站点时,它要先看一下网站根目录里有没有这个文件。如是一个网站没有这个文件,那么查找引擎就能够查看悉数网站文件和跟踪悉数链接。假如有这个文件,就要依照文件的要求来查看网站。 robots.txt文件具体的写法和用法,这关于一个查找引擎优化高手对错常有用的。新手能够大概了解一下就行: 在进行网站优化的时候,经常会运用robots文件把一些内容不想让蜘蛛抓取,曾经写过一篇网站优化robots.txt文件的运用, 现在写这编文章在弥补一点点常识!什么是robots.txt文件 查找引擎经过一种爬虫spider程序(又称查找蜘蛛、robot、查找机器人等),主动搜集互联网上的网页并获取相关信息。 robots.txt有必要放置在一个站点的根目录下,并且文件名有必要悉数小写。robots.txt文件的格局 User-agent: 界说查找引擎的类型 Disallow: 界说制止查找引擎录入的地址 Allow: 界说答应查找引擎录入的地址 咱们常用的查找引擎类型有: (User-agent区别大小写) google蜘蛛:Googlebot 百度蜘蛛:Baiduspider yahoo蜘蛛:Yahoo!slurp alexa蜘蛛:ia_archiver bing蜘蛛:MSNbot altavista蜘蛛:scooter lycos蜘蛛:lycos_spider_(t-rex) alltheweb蜘蛛:fast-webcrawler inktomi蜘蛛: slurp Soso蜘蛛:Sosospider Google Adsense蜘蛛:Mediapartners-Google 有道蜘蛛:YodaoBotrobots.txt文件的写法 User-agent: * 这儿的*代表的一切的查找引擎品种,*是一个通配符 Disallow: /admin/ 这儿界说是制止爬寻admin目录下面的目录 Disallow: /require/ 这儿界说是制止爬寻require目录下面的目录 Disallow: /ABC/ 这儿界说是制止爬寻ABC目录下面的目录 Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目录下的一切以".htm"为后缀的URL(包括子目录)。 Disallow: /*?* 制止拜访网站中一切的动态页面 Disallow: /jpg$ 制止抓取网页一切的.jpg格局的图片 Disallow:/ab/adc.html 制止爬去ab文件夹下面的adc.html文件。 Allow: /cgi-bin/ 这儿界说是答应爬寻cgi-bin目录下面的目录 Allow: /tmp 这儿界说是答应爬寻tmp的整个目录 Allow: .htm$ 仅答应拜访以".htm"为后缀的URL。 Allow: .gif$ 答应抓取网页和gif格局图片 robots.txt文件用法举例 例1. 制止一切查找引擎拜访网站的任何部分 User-agent: * Disallow: / 实例剖析:淘宝网的 Robots.txt文件 User-agent: Baiduspider Disallow: / 很显然淘宝不答应百度的机器人拜访其网站下其一切的目录。 |