欢迎来到合肥浪讯网络科技有限公司官网
  咨询服务热线:400-099-8848

怎么检索和剖析网站日志文件

发布时间:2018-05-22 文章来源:本站  浏览次数:4190

作为SEOer,咱们运用的林林总总的东西,以搜集林林总总的技能问题,网站剖析,抓取确诊,百度站长东西等。所有这些东西是有用的,但都无法比拟在网站日志数据剖析查找引擎蜘蛛抓取,就像Googlebot到爬取您的网站并您的网站上留下了一个实在的记录。这是网络效劳器日志。日志是一个强壮的源数据常常没有得到充分使用,但有助于坚持您的网站的查找引擎抓取检查的完整性。

效劳器日志是由一个特定的效劳器进行具体记录了每一个动作。在一个Web效劳器的情况下,你能够得到许多有用的信息。怎么检索和剖析日志文件,并根据您的效劳器的呼应代码(404,302,500等)的辨认问题。我将它分解成2个部分,每个部分突出不同的问题,能够发现在您的Web效劳器日志

一、获取日志文件

查找引擎抓取网站信息必会在效劳器上留下信息,这个信息就在网站日志文件里。咱们经过日志能够了解查找引擎的拜访情况,一般经过主机效劳商注册日志功用,再经过FTP拜访网站的根目录,在根目录下能够看到一个log或许weblog文件夹,这里边就是日志文件,咱们把这个日志文件下载下来,用记事本(或浏览器)翻开就能够看到网站日志的内容。那么究竟这个日志里边躲藏了什么玄机呢?其实日志文件就像飞机上的黑匣子。咱们能够经过这个日志了解许多信息,那么究竟这个日志给咱们传递了什么内容呢?下面先做一个简单的阐明。

日期:这将让你一天查找引擎抓取速度的发展趋势进行剖析。

被爬取文件:这将通知你哪些被抓取的目录和文件,并在某些路段或类型的内容能够协助查明问题。

情况码:(只列出常见到并能直接反正网站问题的情况码)

200情况码:恳求已成功,恳求所希望的呼应头或数据体将随此呼应回来。

302情况码:恳求的资源现在暂时从不同的URI呼应恳求。

404情况码:恳求失利,恳求所希望得到的资源未被在效劳器上发现。

500情况码:效劳器遇到了一个未曾预料的情况,导致了它无法完成对恳求的处理。

- - 供给了哪些网页被爬虫运转到并反响出什么样的问题。

从哪里来:尽管这不一定是有用的剖析查找机器人,它是非常有价值的,其他的流量剖析。

哪种爬虫:这个会通知你哪个查找引擎爬虫在你的网页上运转的。

二、解析网站日志文件

现在你需求一个日志剖析东西,由于假如你的网站有几M或几十M甚至百M以上的日志数据时,你不可能一条条去看。再说,就算日志数据不多,一条条看也是不科学的。


查找引擎抓取您的网站有最快的方法是看在正在效劳的效劳器呼应代码。404(找不到页面)可能意味着抓取那宝贵的资源被浪费了;302重定向恳求的资源现在暂时从不同的URI呼应恳求;500是效劳器遇到了一个未曾预料的情况,导致了它无法完成对恳求的处理,能够剖分出效劳器呈现的问题。尽管网站办理东西供给了一些信息,这样的过错,会给你的网站形成一个非常大的影响。


302呈现的问题数量是能够承受的,可是不代表能够放着不去处理,咱们应该有更好的方法来处理这些问题,或许用一个robots.txt指令应扫除这些页面被抓取。

404也需求处理,找出潜在的问题是阻隔404目录或许运用rel =”nofollow”注释这些404链接。当然404的页面也有必要要有。

结语

百度网站办理为您供给抓取过错的信息,但在许多情况下,它们约束了数据。作为SEO的,咱们应该使用全部可用的数据,究竟只要一个数据源,你能够真正依托自己的源。日志不说谎!

上一条:节日暴升词查找潜力发掘二...

下一条:正确运用百度共享东西 让...