查找引擎优化入门第38课：什么是robots.txt？robots.txt写法与

发布时间：2018-08-17 文章来源：本站浏览次数：4512

什么是robots.txt？robots.txt写法与查找引擎优化的联系？

什么是robots.txt呢？它是咱们网站上的一个文件。有的网站上没有，也没有联系。这个文件起到的效果是通知查找引擎，哪个文件能够查看，哪个文件不能够查看。查找引擎应当恪守这样的规矩。

关于研讨查找引擎优化的高手来说，这是自己网站上一个很有用的文件。关于咱们初学者来说，能够先了解一下就和，不用深究，今后在学习和实践中会慢慢地就会有较深化地了解了。

当查找引擎拜访一个站点时，它要先看一下网站根目录里有没有这个文件。如是一个网站没有这个文件，那么查找引擎就能够查看悉数网站文件和跟踪悉数链接。假如有这个文件，就要依照文件的要求来查看网站。

robots.txt文件具体的写法和用法，这关于一个查找引擎优化高手对错常有用的。新手能够大概了解一下就行：
本帖躲藏的内容robots.txt在SEO中效果

在进行网站优化的时候，经常会运用robots文件把一些内容不想让蜘蛛抓取，曾经写过一篇网站优化robots.txt文件的运用, 现在写这编文章在弥补一点点常识！什么是robots.txt文件

查找引擎经过一种爬虫spider程序（又称查找蜘蛛、robot、查找机器人等），主动搜集互联网上的网页并获取相关信息。　
　
鉴于网络安全与隐私的考虑，查找引擎遵从robots.txt协议。经过根目录中创立的纯文本文件robots.txt，网站能够声明不想被robots拜访的部分。每个网站都能够自主操控网站是否情愿被查找引擎录入，或者指定查找引擎只录入指定的内容。当一个查找引擎的爬虫拜访一个站点时，它会首先查看该站点根目录下是否存在robots.txt，假如该文件不存在，那么爬虫就沿着链接抓取，假如存在，爬虫就会依照该文件中的内容来断定拜访的范围。

robots.txt有必要放置在一个站点的根目录下，并且文件名有必要悉数小写。robots.txt文件的格局　　

User-agent: 界说查找引擎的类型　　

Disallow: 界说制止查找引擎录入的地址　　

Allow: 界说答应查找引擎录入的地址　　

咱们常用的查找引擎类型有： (User-agent区别大小写)　　

google蜘蛛：Googlebot 　　

百度蜘蛛：Baiduspider 　　

yahoo蜘蛛：Yahoo!slurp 　　

alexa蜘蛛：ia_archiver 　　

bing蜘蛛：MSNbot　　

altavista蜘蛛：scooter 　　

lycos蜘蛛：lycos_spider_(t-rex) 　　

alltheweb蜘蛛：fast-webcrawler 　　

inktomi蜘蛛： slurp　　

Soso蜘蛛:Sosospider　　

Google Adsense蜘蛛:Mediapartners-Google　　

有道蜘蛛:YodaoBotrobots.txt文件的写法

　　User-agent: * 这儿的*代表的一切的查找引擎品种，*是一个通配符

　　Disallow: /admin/ 这儿界说是制止爬寻admin目录下面的目录

　　Disallow: /require/ 这儿界说是制止爬寻require目录下面的目录

　　Disallow: /ABC/ 这儿界说是制止爬寻ABC目录下面的目录

　　Disallow: /cgi-bin/*.htm 制止拜访/cgi-bin/目录下的一切以".htm"为后缀的URL(包括子目录)。

　　Disallow: /*?* 制止拜访网站中一切的动态页面　

　Disallow: /jpg$ 制止抓取网页一切的.jpg格局的图片

　　Disallow:/ab/adc.html 制止爬去ab文件夹下面的adc.html文件。

　　Allow: /cgi-bin/　这儿界说是答应爬寻cgi-bin目录下面的目录

　　Allow: /tmp 这儿界说是答应爬寻tmp的整个目录

　　Allow: .htm$ 仅答应拜访以".htm"为后缀的URL。

　　Allow: .gif$ 答应抓取网页和gif格局图片

robots.txt文件用法举例　　

例1. 制止一切查找引擎拜访网站的任何部分

User-agent: * 　　

Disallow: / 　　

实例剖析：淘宝网的 Robots.txt文件　

User-agent: Baiduspider 　　

Disallow: /　　

很显然淘宝不答应百度的机器人拜访其网站下其一切的目录。

上一条：查找引擎优化入家世31课...

下一条：搜索引擎优化第3课：搜索...