阿里解禁1050亿美元股票：市场聚焦雅虎策略

发布时间：2016-03-19 文章来源：浏览次数：4635

Robots文件是网站和蜘蛛程序之间的“正人协议”——robots文件不仅仅可以节省网站的资源，还可以匡助蜘蛛更加有效的抓取网，从而进步排名。
1：只答应谷歌bot
假如要拦截除谷歌bot之外的所有爬虫：
User-agent:*
disallow:/
Uer-agent:答应的蜘蛛名
Disallow:
2：“/folder/”和“/folder”的区别
举个例子：
User-agent:*
Disallow:/folder/
Disallow:/folder
“Disallow:folder/”表示拦截的是一个目录，该目录文件下的所有文件不答应被抓取，但是答应抓取folder.hlml。
“Disallow:/folder”：对/folder/下的所有文件和folder.html都不能被抓取。
3：“*”匹配任意字符
User-agent:*
表示屏蔽所有的蜘蛛。当我们做了伪静态处理之后，会同时又动态网页和静态网页，网页内容一模一样，视为镜态页面，所以我们要屏蔽掉动态的网页，可以用*号来屏蔽动态的网页
User-agent:*
Disallow:/?*?/
4：$匹配网址结束
假如要拦截以某个字符串结束的网址，就可以使用$，例如，要拦截以.asp结束的网址：
User-agent:*
Disallow:/*.asp$
也可以打开比较优秀的网站，看他们的robots文件是如何书写的，然后根据自己的需求进行相应的修改。Robots文件可以让蜘蛛把更多的时间花在要抓取的内容上，所以优化robots文件是很有必要的。

上一条：一个创业公司倒下的128...

下一条：特斯拉遭保时捷奥迪宝马围...