欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

Robots.txt的标准制作法

发布时间:2024-11-28 文章来源:本站  浏览次数:166

一个网站,能够有robots.txt,也能够没有。但是如果要有,那就必须做的规范,下面就个人经验来说下robots.txt的制作方法。

  robots.txt文件指令包含:

  Disallow - 告知蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取一切的网站文件:

  User-agent: *

  Disallow: /

  Allow - 告知蜘蛛应该抓取某些文件。Allow和Disallow配合运用,能够告知蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件:

  User-agent: *

  Disallow: /ab/

  Allow: /ab/cd

  $通配符 - 匹配URL结束的字符。如下面代码将答应蜘蛛拜访以.htm为后缀的URL:

  User-agent: *

  Allow: .htm$

  *通配符 - 告知蜘蛛匹配任意一段字符。如下面一段代码将制止蜘蛛抓取一切htm文件:

  User-agent: *

  Disallow: /*.htm

  Sitemaps位置 - 告知蜘蛛你的网站地图在哪里,格局为:

  Sitemap:

  三家都支撑的Meta标签包含:

  NOINDEX - 告知蜘蛛不要索引某个网页。

  NOFOLLOW - 告知蜘蛛不要跟踪网页上的链接。

  NOSNIPPET - 告知蜘蛛不要在查找成果中显现阐明文字。

  NOARCHIVE - 告知蜘蛛不要显现快照。

  NOODP - 告知蜘蛛不要运用开放目录中的标题和阐明。

  上面这些记载或标签,现在三家都共同支撑。其中通配符好像曾经雅虎微软并不支撑。百度现在也支撑Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支撑的官方阐明。

  只要Google支撑的Meta标签有:

  UNAVAILABLE_AFTER - 告知蜘蛛网页什么时分过期。在这个日期之后,不该该再出现在查找成果中。

  NOIMAGEINDEX - 告知蜘蛛不要索引页面上的图片。

  NOTRANSLATE - 告知蜘蛛不要翻译页面内容。

  雅虎还支撑Meta标签:

  Crawl-Delay - 答应蜘蛛延时抓取的频率。

  NOYDIR - 和NOODP标签类似,但是指雅虎目录,而不是开放目录。

  Robots-nocontent - 告知蜘蛛被标注的部分html不是网页内容的一部分,或许换个角度,告知蜘蛛哪些部分是页面的主要内容(想被检索的内容)。

  MSN还支撑Meta标签:

  Crawl-Delay

  别的提醒我们留意的是,回来404过错的时分,意味着答应蜘蛛抓取一切内容。但抓取robots.txt文件时却产生超时之类的过错,或许导致查找引擎不录入网站,因为蜘蛛不知道robots.txt文件是否存在或许里边有什么内容,这与确认文件不存在是不一样的。总之,正确制作 robots.txt 文件能够帮助网站更好地与搜索引擎配合,实现内容合理展示与隐私、资源等方面的有效管理。

上一条:CSS基础知识...

下一条:常用域名的种类...