欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

内容为王、外链为皇的搜索引擎优化理念

发布时间:2015-05-05 文章来源:  浏览次数:4190

有效使用robots.txt


一个robots.txt文件可以告诉搜索引擎你网站的哪些部门答应它去抓取。而这个文件不旦必需命名成”robots.txt”,还得放在你网站的根目录上。 

Google SEO官方《搜索引擎优化指南》(9): 有效使用robots.txt

所有的遵循这一规则的搜索引擎爬虫(按照通配符*指示的那样)不应该进入并抓取/images/或者任何以/search开头的url里的内容。


你也许并不但愿你网站的一些页面被抓取到,由于假如它们泛起在搜索结果里对用户可能是没多大意义的。假如你想阻止搜索引擎爬取你的网页,Google网站治理员工具有一个很好用的robots.txt天生器来匡助你创建这个文件。另外假如你但愿子域名里的一些内容不被爬取,你需要在子域名的目录下再新建一个robots.txt文件。你也可以在我们的网站治理员匡助中央获得更多关于robots.txt的信息。


这里也有其它更便捷的方式来阻止你的内容泛起在搜索结果里,好比说在robots meta标签里添加”NOINDEX”,使用htaccess来为一些目录加密或者使用Google网站治理员工具来移除某些已经被索引的内容。Google工程师 Matt Cutts一个匡助视频里粗略地先容了各种URL排除原理的留意事项。


robots.txt实践经验


为那些敏感的内容使用更加安全的方案——通过robots.txt来阻止一些敏感或者秘要的内容。之所以这样做的是由于假如那些你在robots.txt里阻止的链接泛起互联网上(好比说来源记实),搜索引擎就很可能引用这些URLs(不外仅难是URL,不会含有标题或者内容片断)。还有一些不遵守机器人排除尺度的流氓搜索引擎则会违反robots.txt上的指令。最后一些好奇的用户就会去查看你robots.txt是声明阻止的目录或者子目录,并预测那些你不想被看到的内容。所以对内容加密或者通过 .htaccess实现密码保护会是更安全的选择。当然你需要避免:


1.答应看起来像搜索结果一样的页面被爬取。(用户并不喜欢扔给自己一张搜索页面,全是一些没有多大意义的结果。)


2.答应大量的自动天生的页面被抓取,而里面大多都是相同或者差异甚微的内容。“像这些100000张几乎像复制的页面被搜索引擎索引了有多大意义呢?”


3.答应代办代理服务器创建的URLs被爬取.
知识增补:Robots.txt


robots.txt(同一小写)是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的周游器(又称网络蜘蛛),此网站中的哪些内容是不能被搜索引擎的周游器获取的,哪些是可以被(周游器)获取的。 由于一些系统中的URL是大小写敏感的,所以robots.txt的文件名应同一为小写。robots.txt应放置于网站的根目录下。假如想单独定义搜索引擎的周游器访问子目录时的行为,那么可以将自定的设置合并到根目录下的robots.txt,或者使用robots元数据。


Robots.txt协议并不是一个规范,而只是商定俗成的,所以并不能保证网站的隐私。留意Robots.txt是用字符串比较来确定是否获取URL,所以目录末尾有和没有斜杠“/”这两种表示是不同的URL,也不能用"Disallow: *.gif"这样的通配符。


 


这个协议也不是一个规范,而只是商定俗成的,通常搜索引擎会识别这个元数据,不索引这个页面,以及这个页面的链出页面。

上一条:网站优化过程中百度快照对...

下一条:网站优化过程中软文的写作...