欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

查找引擎优化入门第38课:什么是robots.txt?robots.txt写法与

发布时间:2018-08-17 文章来源:本站  浏览次数:2966

什么是robots.txt?robots.txt写法与查找引擎优化的联系?

什么是robots.txt呢?它是咱们网站上的一个文件。有的网站上没有,也没有联系。这个文件起到的效果是通知查找引擎,哪个文件能够查看,哪个文件不能够查看。查找引擎应当恪守这样的规矩。

关于研讨查找引擎优化的高手来说,这是自己网站上一个很有用的文件。关于咱们初学者来说,能够先了解一下就和,不用深究,今后在学习和实践中会慢慢地就会有较深化地了解了。

当查找引擎拜访一个站点时,它要先看一下网站根目录里有没有这个文件。如是一个网站没有这个文件,那么查找引擎就能够查看悉数网站文件和跟踪悉数链接。假如有这个文件,就要依照文件的要求来查看网站。

robots.txt文件具体的写法和用法,这关于一个查找引擎优化高手对错常有用的。新手能够大概了解一下就行:
本帖躲藏的内容robots.txt在SEO中效果

在进行网站优化的时候,经常会运用robots文件把一些内容不想让蜘蛛抓取,曾经写过一篇网站优化robots.txt文件的运用, 现在写这编文章在弥补一点点常识!什么是robots.txt文件

查找引擎经过一种爬虫spider程序(又称查找蜘蛛、robot、查找机器人等),主动搜集互联网上的网页并获取相关信息。  
 
鉴于网络安全与隐私的考虑,查找引擎遵从robots.txt协议。经过根目录中创立的纯文本文件robots.txt,网站能够声明不想被robots拜访的部分。每个网站都能够自主操控网站是否情愿被查找引擎录入,或者指定查找引擎只录入指定的内容。当一个查找引擎的爬虫拜访一个站点时,它会首先查看该站点根目录下是否存在robots.txt,假如该文件不存在,那么爬虫就沿着链接抓取,假如存在,爬虫就会依照该文件中的内容来断定拜访的范围。

robots.txt有必要放置在一个站点的根目录下,并且文件名有必要悉数小写。robots.txt文件的格局   

User-agent: 界说查找引擎的类型   

Disallow: 界说制止查找引擎录入的地址   

Allow: 界说答应查找引擎录入的地址   

咱们常用的查找引擎类型有: (User-agent区别大小写)  

google蜘蛛:Googlebot   

百度蜘蛛:Baiduspider   

yahoo蜘蛛:Yahoo!slurp   

alexa蜘蛛:ia_archiver   

bing蜘蛛:MSNbot  

altavista蜘蛛:scooter   

lycos蜘蛛:lycos_spider_(t-rex)   

alltheweb蜘蛛:fast-webcrawler   

inktomi蜘蛛: slurp  

Soso蜘蛛:Sosospider  

Google Adsense蜘蛛:Mediapartners-Google  

有道蜘蛛:YodaoBotrobots.txt文件的写法

  User-agent: * 这儿的*代表的一切的查找引擎品种,*是一个通配符

  Disallow: /admin/ 这儿界说是制止爬寻admin目录下面的目录

  Disallow: /require/ 这儿界说是制止爬寻require目录下面的目录

  Disallow: /ABC/ 这儿界说是制止爬寻ABC目录下面的目录

  Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目录下的一切以".htm"为后缀的URL(包括子目录)。

  Disallow: /*?* 制止拜访网站中一切的动态页面 

 Disallow: /jpg$ 制止抓取网页一切的.jpg格局的图片

  Disallow:/ab/adc.html 制止爬去ab文件夹下面的adc.html文件。

  Allow: /cgi-bin/ 这儿界说是答应爬寻cgi-bin目录下面的目录

  Allow: /tmp 这儿界说是答应爬寻tmp的整个目录

  Allow: .htm$ 仅答应拜访以".htm"为后缀的URL。

  Allow: .gif$ 答应抓取网页和gif格局图片

robots.txt文件用法举例  

例1. 制止一切查找引擎拜访网站的任何部分

User-agent: *   

Disallow: /   

实例剖析:淘宝网的 Robots.txt文件  

User-agent: Baiduspider   

Disallow: /  

很显然淘宝不答应百度的机器人拜访其网站下其一切的目录。

上一条:查找引擎优化入家世31课...

下一条:搜索引擎优化第3课:搜索...