Robots.txt的标准制作法 |
发布时间:2024-11-28 文章来源:本站 浏览次数:166 |
一个网站,能够有robots.txt,也能够没有。但是如果要有,那就必须做的规范,下面就个人经验来说下robots.txt的制作方法。 robots.txt文件指令包含: Disallow - 告知蜘蛛不要抓取某些文件或目录。如下面代码将阻止蜘蛛抓取一切的网站文件: User-agent: * Disallow: / Allow - 告知蜘蛛应该抓取某些文件。Allow和Disallow配合运用,能够告知蜘蛛某个目录下,大部分都不抓取,只抓取一部分。如下面代码将使蜘蛛不抓取ab目录下其他文件,而只抓取其中cd下的文件: User-agent: * Disallow: /ab/ Allow: /ab/cd $通配符 - 匹配URL结束的字符。如下面代码将答应蜘蛛拜访以.htm为后缀的URL: User-agent: * Allow: .htm$ *通配符 - 告知蜘蛛匹配任意一段字符。如下面一段代码将制止蜘蛛抓取一切htm文件: User-agent: * Disallow: /*.htm Sitemaps位置 - 告知蜘蛛你的网站地图在哪里,格局为: Sitemap: 三家都支撑的Meta标签包含: NOINDEX - 告知蜘蛛不要索引某个网页。 NOFOLLOW - 告知蜘蛛不要跟踪网页上的链接。 NOSNIPPET - 告知蜘蛛不要在查找成果中显现阐明文字。 NOARCHIVE - 告知蜘蛛不要显现快照。 NOODP - 告知蜘蛛不要运用开放目录中的标题和阐明。 上面这些记载或标签,现在三家都共同支撑。其中通配符好像曾经雅虎微软并不支撑。百度现在也支撑Disallow,Allow及两种通配符。Meta标签我没有找到百度是否支撑的官方阐明。 只要Google支撑的Meta标签有: UNAVAILABLE_AFTER - 告知蜘蛛网页什么时分过期。在这个日期之后,不该该再出现在查找成果中。 NOIMAGEINDEX - 告知蜘蛛不要索引页面上的图片。 NOTRANSLATE - 告知蜘蛛不要翻译页面内容。 雅虎还支撑Meta标签: Crawl-Delay - 答应蜘蛛延时抓取的频率。 NOYDIR - 和NOODP标签类似,但是指雅虎目录,而不是开放目录。 Robots-nocontent - 告知蜘蛛被标注的部分html不是网页内容的一部分,或许换个角度,告知蜘蛛哪些部分是页面的主要内容(想被检索的内容)。 MSN还支撑Meta标签: Crawl-Delay 别的提醒我们留意的是,回来404过错的时分,意味着答应蜘蛛抓取一切内容。但抓取robots.txt文件时却产生超时之类的过错,或许导致查找引擎不录入网站,因为蜘蛛不知道robots.txt文件是否存在或许里边有什么内容,这与确认文件不存在是不一样的。总之,正确制作 robots.txt 文件能够帮助网站更好地与搜索引擎配合,实现内容合理展示与隐私、资源等方面的有效管理。 |