欢迎来到 黑吧安全网 聚焦网络安全前沿资讯,精华内容,交流技术心得!

手把手教你网站服务器日志分析

来源:本站整理 作者:佚名 时间:2016-11-02 TAG: 我要投稿

服务器日志是一个文本,类似txt文本,是服务器自己生成的,也称为网站日志。通常Windows服务器的日志叫做Apache日志,Linux服务器日志称为IIS日志。
当人访问了网站或搜索引擎抓取了网站,这些行为都会被记录,服务器访问异常也会记录在里面。
这次分析我就用自己的服务器日志来作为案例,教大家如何快速分析网站日志,掌握更全面的知识和分析方法。未详尽之处请留言与我交流。
以阿里云(万网)主机为例:
首先登陆阿里云管理控制台,找到空间主机(我的是虚拟主机)

点击空间主机后,点击右方“管理”进入主机管理控制台

选择“站点信息”下的“文件管理”–“网站日志下载”–点击右方“下载”

下载后的网站日志保存在站点根目录,这时候我们需要登录FTP,从网站根目录找到.log的网站日志,并存放到桌面等容易找到的地方

用文本了打开日志后,我们发现日志内容是非常乱的,而且没有格式,此时我们需要借助EXCEL或WPS等工具来整理打开

打开WPS,新建一个文件,点击菜单栏“数据”–右方“导入数据”–“选择数据源”–选择“所有文件”找到日志




这里选择“分隔符号”

这里选择“空格”,然后点击“完成”及可打开数据。因为表格太大,不方便截图,各位自己下载一个日志打开分析。


导入数据后,我们会发现有很多单元格是重复的,或者没有数据,此时我们需要将相同的部分删除。剩下的一些单元格需要根据自己的经验进行判断删除
根据经验判断哪个是访客IP,访问时间,哪些是http状态码,熟悉http状态码的含义及筛选出如404状态码对应的有哪些网页,并将这些网页整理提交百度404文件。403是没有权限访问,对网站的优化没有影响,因为搜索引擎抓取到的仅仅是这一层网址,内部的它抓取不到,只要这一层正常就只可以的。只要让403的网址不出现在网站上,就对优化没有影响
304是缓存的意思,告诉你你有缓存,不用再加载了,是正常的
301访问的时候会自动加入一个/,人为的出错,有一定影响。
可以去安装谷歌站长平台,能全部找出哪些页面是异常的,而且会告诉你在哪个位置


可以在用户信息中找到baiduspider百度抓取到了哪些东西?但未必是百度抓的,因为会有人冒充百度蜘蛛。被访问的404页面访问者的ip是一样的,可以证明这个ip是竞争对手想找我们的漏洞,攻击我们,明明我们网站上都没有这些文件。还可以关注时间,没有人一秒钟的时间访问多个页面,遇到404要判断我们的网站是否真有这些页面。
作为SEO,我们所优化的网站,有哪些路径,有哪些CSS自己都要知道,并非所有的你都要去处理。可以看看到别了还扫了我们的zip,数据库等。所以建议不要存放zip文件等在网站根目录。只是竞争对手在探索,找我们的漏洞,只需要加强我们自己的防御就可以了
通过分析网站日志,能及时判断我们网站出了哪些问题并作出相应的优化。站长们一定要注意细节,并且做好网站安全。
还有,我们还要学会判断哪些是真假蜘蛛,分析这些访客是通过什么内核的浏览器访问的。通常最多的还是我们的同行,他们使用的都是谷歌浏览器Chrome内核。
 

【声明】:黑吧安全网(http://www.myhack58.com)登载此文出于传递更多信息之目的,并不代表本站赞同其观点和对其真实性负责,仅适于网络安全技术爱好者学习研究使用,学习中请遵循国家相关法律法规。如有问题请联系我们,联系邮箱admin@myhack58.com,我们会在最短的时间内进行处理。
  • 最新更新
    • 相关阅读
      • 本类热门
        • 最近下载