web日志分析系统_web日志分析工具怎么确认被攻击

① 如何进行网站日志分析

1、下载网站日志：

流程如下：主机独立控制面板——网站情报系统分析——网站日志——下载WebLog日志——右键点击查看，链接另存为

在主机独立控制面板中，找到网站情报系统分析板块，里面就能看到网站日志了，点击下载WebLog日志，能看到最近几天的网站日志，但是点击查看进去，会发现是一堆看不懂的代码，没有关系，我们先不要进去查看，而是右键点击查看，链接另存为，下载网站日志。
——————
2、代码看不懂的话，可以使用光年日志分析软件GnAnalyzer，这是一个可以帮助我们进行网站日志分析的软件。比如蜘蛛抓取的情况，日志里面都有显示。
——————
3、光年日志分析软件的使用：

下载好网站日志后，就可以使用光年日志分析软件进行网站日志的分析了。

流程如下：光年日志分析软件文件夹中的GnAnalyzer.exe——文件菜单，新建任务——添加（类型选择所有文件）——下一步，保存——马上分析
——————
4、网站日志分析：

马上分析后，就可以查看当天：蜘蛛分析（概要分析、目录抓取、页面抓取、IP排行）；搜索引擎分析（关键字分析）；状态码分析（用户状态码、蜘蛛状态码）的相关信息。

文章参考自www.bjtcliuyan.com

② ELK日志分析系统

       随着软件行业的发展，软件系统的生产部署结构日趋复杂。对于一个分布式的系统，同一应用通常部署在不同的节点上，通过负载均衡的方式将请求分发到各个不同的节点进行处理。此时就会相对增加生产运维的复杂度，在进饥蚂行问题查询的时候很难判断本次请求段芹是在哪台机器上执行的，也就无法快速的对日志进行查询从而定位问题，因此，就需要对日志进行统一的处理和分析，以便方便开发和运维人员的问题处理速度。

本文介绍的是elastic stack开源的ELK组件，主要包括elasticsearch(简称es)，logstash，kibana三个核心组件。
es是实时全文搜索和分析引擎，提供搜集、分析、存储数据三大功能，对外提供REST和java api，可扩展性的分布式系统。
Logstash是一个用来搜集、分析、过滤日志的工具，几乎支持所有类型的日志，能够接收多种来源的日志，包括syslog、mq，并且能够输出到多种介质中，包括es，邮件等等。
Kibana是一个基于Web的图形界面，用于搜索、分析和可视化存储在 Elasticsearch指标中的日志数据。它利用Elasticsearch的REST接口来检索数据，不仅允许用户定制仪表板视图，还允许用户使用es语法进行操作。

但是，在实际使用的过程中发现，logstash会占用很多系统资源，因此决定加入一个更轻量的日志收集组件（也是elastic stack的组件之一）filebeat。因此在加入filebeat之后，整个部署架构变成了如下图所示。

安装包：
    elasticsearch-6.6.2.tar.gz
    kibana-6.6.2-linux-x86_64.tar.gz
    logstash-6.6.2.tar.gz
    filebeat-6.6.0-linux-x86_64.tar.gz
    jdk-8u192-linux-x64.tar.gz
机器：
    192.168.45.174，192.168.45.175，192.168.45.176（ES集群）
    192.168.45.2（logstash，kibana）
    192.168.45.136（应用服务器，安装filebeat）

   注(1)：由于ELK组件都是使用java开发的，因此需要安装1.8以上版本的jdk
      jdk的安装方法： https://www.cnblogs.com/kuoAT/p/7555298.html
   注(2)：Elasticsearch不能使烂燃埋用root用户运行，需要单独创建用户
1）为es创建一个目录

2）创建一个elk用户，并为elk用户授权elasticsearch目录

3）上传es的安装包，并解压到elasticsearch目录

4）切换到root用户，修改以下文件

5）执行sysctl –p ，使配置生效
6）切换回elk用户，进入 elasticsearch/config/目录下，修改es的配置文件elasticsearch.yml

1）将filebeat上传到要进行日志收集的服务器上192.168.45.136，并解压

2）修改配置文件

a. 修改其中的enabled为true，并配置paths(要收集的日志路径，可以使用* 代替)。也可以根据exclude_lines和include_lines来做一些过滤日志的行为。

b. filebeat的配置文件路径，以及是否允许重新加载配置文件。并设置索引的分片数量

c. 配置kibana地址

d. 配置logstash地址

1）将logstash安装包上传到192.168.45.2服务器并解压
tar -xvf logstash-6.6.2.tar.gz
2）修改logstash输入输出的配置文件logstash-sample.yml
a.input中配置filebeat的监听端口
b.filter中可以增加过滤条件对所有或者指定索引进行过滤
c.output中可以配置filebeat输出之后的索引

1）将kibana安装包kibana-6.6.2-linux-x86_64.tar.gz上传到192.168.45.2，并解压
tar -xvf kibana-6.6.2-linux-x86_64.tar.gz
2）修改配置文件

1）分别在对应的bin目录下执行下列操作

2）启动后可以在浏览器中输入192.168.45.2:5601来进入kibana界面进行日志查询

③ 如何编写自己的Web日志分析脚本

脚本：写剧本的人，也叫故事构成。
脚本英文为Script。实际上脚本就是程序，一般御租都是有应用程序提供的编程语言。应用程序包括浏览器(JavaScript、VBScript)、多媒体创作工具，应用程序的宏和创作系统的批处理语言也可以归入脚本之类。脚本同我们平时使用的VB、C语言的区别主要是：
1、脚本语法比较简单，比较容易掌握；
2、脚本与应用程序密切相关，所以包括相对应用程序自身的功能；
3、脚本一般不具备通用性，所能处理的问题范围有限。

脚本,英文名为Script,简单地说,脚本就是指通过记事本程序或其它文本编辑器(如Windows Script Editor,EditPlus等)创建,并保存为特定扩展名(如.reg , .vbs, .js, .inf等)的文件,对于注册表脚本文件就是利用特定的格式编辑的.reg文件;对于VBScript脚本编程语言来说,脚本文件扩展名就是.vbs;对于JScript脚本编程语言来说,脚本文件扩展名就是.js;另外,.wsf格式是Microsoft定义的一种脚本文野衡件格式,即Window Script File.

具体地说,脚本通过利用应用程序或工具的规则和语法来表达指令,以控制应用程序(包括注册表程序)中各种元素的反应,也可以由简单的控制结构(例如循环语句和If/Then语句)组成,这些应用程序或工具包括网页浏览器(支持VBScript,Jscript),多媒体制作工具,应用程序的宏(比如Office的宏)以及我们熟悉的注册表工具(regedit.exe)等.操作系统中的批处理也可以归入脚本之列,批处理程序也经常由Windows环境中的"脚本"替换镇脊兆,所以又称脚本是"Windows时代的批处理".

脚本的作用在每一种应用程序中起的作用都是不一样的,比如在网页中可以实现各种动态效果,各种特效处理,实现各种HTML不能实现的功能.而在Office组件中,我们会经常看到"宏"这个工具,它其实就是一系列命令和指令可以实现任务执行的自动化.

脚本多以“vbs”、“bat”结尾。可以用“记事本”或“按键精灵”编辑。

④ Weblog expert日志分析器怎么使用

方法/步骤

把已经安装好的weblog expert的软件打开，这个工具是免费的，打开完软件之后，点击菜单中的“new”的选项。

就会进入到general的界面中，进行在profile中输入网址，domain中输入域名，index中输入编号，进入到下一步

到log files的界面中，如果知道log存放的路径，可以把路径直接复制到输入框中，也可以通过browse进行浏览器log文件位置，进行点击browse

找到加载log的文件，找到log文件之后并选中该文件。

就把log文件加载到weblog expert工具中，然后就直接点击Analyze的按钮。

就分析的按钮就自动对log日志进行分析，分析完成之后，会自动通过网页开发log分析日志。就可以通过这些log的分析日志信息，进行获取到自己需要的信息。

⑤ 如何shell命令编写自己的Web日志分析脚本

一、读取文件
按照上面的思路，先解决读取问题。这里我用了判断语句，起初我是想写出类似于 access=more
/usr/access*.*，将这个路径全部加到变量里，方便判断，因为在shell里，只能将固定文件、文件夹作为变量，变量中不能加*号（我是没找到别的方法，有知道大牛请提点下小弟），所以就想了个笨办法，用匹配关键词的方式来判断特定目录下，是apache日志，还是weblogic日志，还是IIS日志，具体判断方法如下：
if ls -l /usr/ | egrep "access";then
more /usr/access*.* | egrep "多个关键词"
else
more /usr/ex*.log | egrep “多个关键词”
fi
这样的方式来进行判断，但是这样判断有个缺点，就是中间件日志在/usr/目录下，只能存在一种，比如同时存在apache和IIS的日志，就会优先判断apache的，进而不会执行IIS日志分析的语句。而且，为了不跟之前的历史数据混乱，在脚本执行开始，清空了下数据。
file=/usr/nmgxy/
if [ -e "$file" ];then
echo "日志目录存在，跳过创建过程，该操作会清空/usr/nmgxy/目录下所有数据"
echo "按回车键开始清空数据，结束请点击Ctrl+c"
read key
rm -r /usr/nmgxy/*
mkdir -p /usr/nmgxy/LFI/ /usr/nmgxy/exp/ /usr/nmgxy/sql/ /usr/nmgxy/scan/ /usr/nmgxy/xss/ /usr/nmgxy/getshell/ /usr/nmgxy/dir/
else
mkdir -p /usr/nmgxy/ /usr/nmgxy/LFI/ /usr/nmgxy/exp/ /usr/nmgxy/sql/
/usr/nmgxy/scan/ /usr/nmgxy/xss/ /usr/nmgxy/getshell/ /usr/nmgxy/dir/
fi
echo "分析结果日志保存在/usr/nmgxy/目录下"
echo ---------------------日志目标文件---------------------------
if ls -l /usr/ | egrep "access";then
echo --------------------统计出现次数最多的前20个IP地址-----------------
cat /usr/access*.* |awk '{print $1}' |sort |uniq -c |sort -rn |head -20 >/usr/nmgxy/top20.log
echo "统计完成"
二、定义攻击特征
日志读取的问题解决了，接下来就是定义攻击特征的事儿了，攻击特征比较好定义。例如，SQL注入攻击的判断：
echo ------------------------SQL注入攻击sql.log----------------
echo "开始分析存在SQL注入的攻击行为，并将结果保存在/usr/nmgxy/sql/目录下"
more /usr/access*.* |egrep
"%20select%20|%20and%201=1|%20and%201=2|%20exec|%27exec|
information_schema.tables|%20information_schema.tables|%20where%20|%20union%20|%20SELECT%20|%2ctable_name%20|cmdshell|%20table_schema"
>/usr/nmgxy/sql/sql.log
echo "分析结束"
awk '{print "共检测到SQL注入攻击" NR"次"}' /usr/nmgxy/sql/sql.log|tail -n1
echo "开始统计SQL注入攻击事件中，出现频率最多的前20个IP地址"
cat /usr/nmgxy/sql/sql.log |awk -F "[" '{print $1}' |sort |uniq -c |sort -rn |head -20 >/usr/nmgxy/sql/top20.log
echo ----------------------------------------------------------
more /usr/nmgxy/sql/top20.log
echo "统计结束"
我把一些常见的SQL注入攻击的特征写到了里面，去掉了MSSQL数据库存储过程以及MSSQL数据库才会出现的一些注入语句。
三、输出匹配到的含有攻击特征的记录
将匹配到的攻击特征内容，重新输出到了另外一个log里面，相当于做了一次筛选/usr/nmgxy/sql/sql.log
more /usr/access*.* |egrep
"%20select%20|%20and%201=1|%20and%201=2|%20exec|%27exec|
information_schema.tables|%20information_schema.tables|%20where%20|%20union%20|%20SELECT%20|%2ctable_name%20|cmdshell|%20table_schema"
>/usr/nmgxy/sql/sql.log
然后二次分析这个筛选过的文件，统计SQL注入攻击出现的次数
awk '{print "共检测到SQL注入攻击" NR"次"}' /usr/nmgxy/sql/sql.log|tail -n1
输出完毕后，将攻击出现最多的前20个IP地址进行统计并显示到屏幕上
echo "开始统计SQL注入攻击事件中，出现频率最多的前20个IP地址"
cat /usr/nmgxy/sql/sql.log |awk -F "[" '{print $1}' |sort |uniq -c |sort -rn |head -20 >/usr/nmgxy/sql/top20.log
echo ----------------------------------------------------------
more /usr/nmgxy/sql/top20.log
echo "统计结束"
四、输出结果
这个在代码开头，创建了一些文件夹，用来存放筛选过的记录
mkdir -p /usr/nmgxy/LFI/ /usr/nmgxy/exp/ /usr/nmgxy/sql/ /usr/nmgxy/scan/ /usr/nmgxy/xss/ /usr/nmgxy/getshell/ /usr/nmgxy/dir/
中间删删改改折腾了好几次。后来针对特定的攻击，我们比较关注（重点是比较好写的= =）的内容做了HTTP响应请求200/500的判断，并输出结果。
echo -------------------------getshell-getshell.log----------------
echo "开始分析存在getshell的攻击行为，并将结果保存在/usr/nmgxy/getshell/目录下"
more /usr/access*.* |egrep "
eval|%eval|%execute|%3binsert|%20makewebtaski%20|/div.asp|/1.asp|/1.jsp|/1.php|/1.aspx|xiaoma.jsp|tom.jsp|py.jsp|k8cmd.jsp|/k8cmd|ver007.jsp|ver008.jsp|ver007|ver008|%if|\.aar"
>>/usr/nmgxy/getshell/getshell.log
echo "分析结束"
echo "二次分析结果中HTTP响应码为200和500，结果另存为/usr/nmgxy/getshell/ok.log"
more /usr/nmgxy/getshell/getshell.log | awk '{if($9=200) {print $1" "$2"
"$3" "$4" "$6" "$7" "$8" "$9}}' >/usr/nmgxy/getshell/ok.log
more /usr/nmgxy/getshell/getshell.log | awk '{if($9=500) {print $1" "$2"
"$3" "$4" "$6" "$7" "$8" "$9}}' >>/usr/nmgxy/getshell/ok.log
echo "二次分析结束"
awk '{print "共检测到getshell行为" NR "次"}' /usr/nmgxy/getshell/getshell.log|tail -n1
echo "开始统计漏洞利用攻击事件中，出现频率最多的前20个IP地址"
cat /usr/nmgxy/getshell/getshell.log |awk -F "[" '{print $1}' |sort
|uniq -c |sort -rn |head -20 >/usr/nmgxy/getshell/top20.log
echo ---------------------------------------------------------------
more /usr/nmgxy/getshell/top20.log
echo "统计结束"
统计HTTP响应状态，IIS和apache有点区别。apache我以默认空格为分隔符，判断第9个分隔符是否为200或500，如果等于，则输出全部内容
more /usr/nmgxy/getshell/getshell.log | awk '{if($9=500) {print $1" "$2" "$3" "$4" "$6" "$7" "$8" "$9}}'
而IIS的，我则是用获取关键词的方式，来进行判断。
more /usr/nmgxy/getshell/getshell.log | egrep " 200" >/usr/nmgxy/getshell/ok.log
用egrep的方式，关键词为" 200"，200前面有个空格，如果不加空格的话，很容易跟其他的参数混起来，那个时候误报就不是一点点了。例如asp?id=200，所以加入了空格做区分。
IIS和nginx的思路类似，唯一的区别就是特征码，稍微有点改动而已，这个就不一一例举了。思路就是这个思路，其实后期想把报告整体输出成HTML的方式，估计工作量挺大，这个还是得闲下来的时候，慢慢修改吧。
PS：这个脚本虽然写的比较粗糙，但是精确度还是有的，测试了几十次，精确度能达到至少80%以上。
分析1个多G的日志文件，需要大致约30多秒左右，我是在虚拟机里做的测试。虚拟机ubuntu系统，1G的内存。
不见得能帮上大忙，至少可以给大家在分析日志时节省点时间。。。。
先贴出apache、weblogic、IIS的脚本代码，weblogic的从网盘直接下载就好。apache、weblogic、IIS的脚本代码：

⑥ 1Web日志数据分析模型的设计思想与实现

1Web日志数据分析模型的设计思想

本论文设计平台通过对web日志文件分析，统计出哪个页面最受欢迎，访问者来自哪里，访问时段分布情况等。分析结果生成HTML代码，最终通过浏览器以页面的形式将各种报表呈现在用户面前。其中要用到目前比较常用的ASP技术，由于要将海量的日志数据存入，所以还要用到SQL-Server这个功能强大的数据库。

1.1系统的体系结构

Web日志数据分析系统的主要用户是一般企业网站或个人网站管理员，目前常见的网络开发模式共有3种体系结构：两层Client/Server（C/S）体系结构；三层Client/Server/Database（C/S/D）体系结构；三层Browser/Server/Database（B/S/D）体系结构。综合考虑本系统的用户群特点及这三种体系结构特点，最终采用的体系结构是目前国际上流行的“Browser/WebServer/Database”即三层网络结构模型。这种体系结构简单实用，客户端只要采用标准浏览器与网络进行连接就可以了。

1.2系统功能模块设计

系统功能模块是系统与用户交互的接口，本系统包括：数据预处理模块、基本分析模块、智能分析模块和可视化模块，系统功能模块.数据预处理模块：该模块主要功能是首先去掉原先存放在关系数据库中的部分没有用的原始日志，然后设置日志文件格式、采样方法，依据包含替换规则对数据进行净化，再将该数据导入源数据库，形成页面映射表信息，最后形成用户表。基本分析模块：该模块主要是对网站的`访问情况进行以下6方面的统计汇总，即时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎模块。智能分析模块：该模块主要功能是利用关联规则对Web站点的页面之间的链接关系和站点结构进行分析，构建一个新的Web站点拓扑结构，寻有关联的客户群体，开展有针对性和个性化的电子商务活动。

2Web日志数据分析系统功能的实现

2.1数据收集

由于本系统是对Web日志的分析，所以数据收集部分的工作实际上就是对日志的收集工作，所以最重要得一点是网站的管理者允许对其日志文件进行研究，在同意对日志文件保密的前提下，笔者从电脑商网中国IT商务门户（www.cnitsw.com）获取了一段时间的网站日志文件以此作为分析对象。

2.2数据预处理

数据的预处理过程是将Web日志整理成适合数据挖掘的数据模型。整个挖掘预处理过程分为数据净化、用户识别、会话识别、路径补充、事务识别5个步骤。

2.3智能分析模块实现

我们利用了Apriori算法的思想，但同时对APriori算法进行了改造，采用了改进的APriori算法进行频繁路径挖掘。改进Apriori是受到APriori算法的启发，但它适合频繁路径的挖掘。

2.4基本分析模块实现

基本分析可以分为两个方面，一是网站整体的访问统计，另一方面是具体网页的访问分析。整体分析可以统计用户数、点击数，分析客户端信息等等；对具体网页可以统计其访问量，以分析其受欢迎程度，也可表示其重要程度。这些工作的数据来源是预处理中数据清理阶段产生的源数据库和整个预处理阶段后产生的用户事务数据库，实现方法也比较简单，一般都是简单的统计分析处理。基本分析模块由时段分析模块、地域分析模块、来源统计模块、客户端分析模块、受访页分析模块、搜索引擎分析模块6个模块组成。本文以时段分析模块为例进行阐述。根据日志中的日期域（data）、时间域（time）以及所花时间域（time－taken）可以统计出每天哪个时段的访问人数和具体逗留时间，每个小时访问量的变化，通过一天中每小时的访问数可以得出站点哪个时间段的访问人数最多是访问高峰期，进而分析出访问人群的职业和上网习惯等相关信息。

Web日志数据分析是internet信息处理的一个重要应用，目前我们只是实现了一些简单的功能，还可以对WEB日志的分析处理上进行某些更详细的深入分析，譬如可以根据访问者的登录时间、访问页面、停留时间等信息进行统计分析，然后制定个性化的电子商务营销策略，帮助电子商务网站在最短的时间内抓住最有效的客户。还可根据以往时间段的访问人数统计，对网站未来几天或者某个时间段的访问流量进行预测。

作者:吴敏纲黄杰恒郑义平单位:景德镇陶瓷学院信息工程学院景德镇市第六人民医院景德镇市国税局直属分局

⑦ web日志分析工具怎么确认被攻击

Apache 服务器
预安装在Kali Linux
可以用以下命令开启：
service apache2 start

MySQL
预安装在Kali Linux
可以用以下命令开启：
service mysql start

使用PHP-MySQL创建一个有漏洞的web应用
我使用PHP开发了一个有漏洞的web应用并且把它放在上面提到的 Apache-MySQL里面。
上述设置完成后，我用了一些Kali Linux中的自动工具（ZAP、w3af）扫描这个有漏洞的应用的URL。
现在让我们来看看分析日志中的不同情况。
0x02 Apache服务中的日志记录
Debian系统上Apache服务器日志的默认位置为：/var/log/apache2/access.log
日志记录只是在服务器上存储日志。我还需要分析日志以得出正确结果。在接下来的一节里，我们将看到我们如何分析Apache服务器的访问日志以找出web站点上是否有攻击尝试。
分析日志
手动检查
在日志量较小的情况下，或者如果我们查找一个指定关键词，可以使用像grep表达式这样的工具观察日志。
在下图中，我们在URL中试图搜寻所有关键词为“union”的请求。

从上图中，我们可以看到URL中的“union select 1,2,3,4,5”请求。很明显，ip地址为 192.168.56.105的某人尝试了SQL注入。类似地，当我们有自己的关键词时可以搜索特殊的关键词。

在下图中，我们正在搜索试图读取“/etc/passwd”的请求，很明显是本地文件包含尝试。
如上面的截图所示，我们有许多本地文件包含的尝试，且这些请求发送自ip地址 127.0.0.1。
很多时候，能轻易通过日志看出是否是自动化扫描器产生的。
举例来说， IBM appscan在许多攻击payload中使用“appscan”这个词。所以，在日志中查看这样的请求，我们基本就可以判断有人在使用appscan扫描网站。
Microsoft Excel也是一个打开日志文件和分析日志的不错的工具。我们可以通过指定“空格”为分隔符以用excel打开日志文件。
当我们手头没有日志分析工具时，这个也挺好用的。
除了这些关键词，在分析期间要了解HTTP状态代码的基础知识。以下是关于HTTP状态代码的高级信息的表格。

0x03 Web shells
webshell是网站/服务器的另一个问题。webshell可以已web server权限控制服务器。
在一些情况下，我们可以使用webshell来访问所有放在相同服务器上的其他站点。
以下截图显示了Microsoft Excel 中开启相同的access.log文件。

我们清楚地看到有一个叫“b374k.php”的文件被访问了。“b374k”是一个流行的webshell，因此这个文件是很可疑的。
查看相应代码“200”，本行表明有人上传了一个webshell并访问了它。
在许多情况下，攻击者重命名webshell的名字以避免怀疑。我们必须变得聪明点，看看被访问的文件是否是常规文件或者是否他们看起来不太一样。我们可以更进一步，如果任何文件看起来可疑的话，还可以查看文件类型和时间戳。
One single quote for the win

SQL注入是web应用中最常见的漏洞之一。大多数学习web应用安全的人是从学习SQL注入开始的。
识别一个传统的SQL注入很容易，给URL参数添加一个单引号看看是否报错。
任何我们传递给服务器的东西都会被记录，并且可以朔源。
以下截图显示了日志当中记录了有对参数user传入单引号测试是否有SQL注入的行为。
%27是单引号的URL编码。

出于管理目的，我们还可以运行查询监视来查看数据库中的哪个请求被执行了。

如果我们观察以上图片，传递一个单引号给参数“user”的SQL语句被执行了。
0x04 使用自动化工具分析
当存在大量日志时。手动检查就会变得困难。在这种情景下，除了一些手动检查之外我们可以使用自动化工具。
虽然有许多高效的商业工具，但是我要向你们介绍一款被称为“Scalp”的免费工具。
据他们的官方链接所说，Scalp是用于Apache服务器，旨在查找安全问题的日志分析器。主要理念是浏览大量日志文件并通过从HTTP/GET中提取可能的攻击。
Scalp可以从以下链接下载：
https://code.google.com/p/apache-scalp/
Scalp是python脚本，所以要求我们的机器中安装python。
以下图片显示该工具的帮助。

如我们在上图所见，我们需要使用标志-l来提供要分析的日志文件。
同时，我们需要提供使用标志-f提供一个过滤文件让Scalp在access.log文件中识别可能的攻击。
我们可以使用PHPIDS项目中的过滤器来检测任何恶意的尝试。
该文件名为“default_filter.xml ”，可以从以下链接中下载：
https://github.com/PHPIDS/PHPIDS/blob/master/lib/IDS/default_filter.xml
以下代码块是取自上面链接的一部分。

1
2
3
4
5
6
7
8
9
10
11

<filter>
<id>12</id>
<rule><![CDATA[(?:etc\/\W*passwd)]]></rule>
<description>Detects etc/passwd inclusion attempts</description>
<tags>
<tag>dt</tag>
<tag>id</tag>
<tag>lfi</tag>
</tags>
<impact>5</impact>
</filter>

它是使用XML标签定义的规则集来检测不同的攻击测试。以上代码片段是检测文件包含攻击尝试的一个示例。
下载此文件之后，把它放入Scalp的同一文件夹下。
运行以下命令来使用Scalp分析日志。

1

python scalp-0.4.py –l /var/log/apache2/access.log –f filter.xml –o output –html

“output”是报告保存的目录。如果不存在的话，由Scalp自动创建。-html是用来生成HTML格式的报告。如我们在上图看到的那样，Scalp结果表明它分析了4001行，超过4024并发现了296个攻击模式。
运行上述命令后在输出目录内生成报告。我们可以在浏览器内打开它并查看结果。下面截图显示的输出显示了目录遍历攻击尝试的一小部分。

MySQL中的日志记录
本节论述了数据库中的攻击分析和监视它们的方法。
第一步是查看设置了什么变量。我们可以使用“show variables;”完成，如下所示。

接下来显示了上述命令的输出。

如我们在上图中看到的，日志记录已开启。该值默认为OFF。
这里另一个重要的记录是 “log_output”，这是说我们正在把结果写入到文件中。另外，我们也可以用表。
我们可以看见“log_slow_queries”为ON。默认值为OFF。
所有这些选项都有详细解释且可以在下面提供的MySQL文档链接里直接阅读：
MySQL的查询监控
请求日志记录从客户端处收到并执行的语句。默认记录是不开启的，因为比较损耗性能。
我们可以从MySQL终端中开启它们或者可以编辑MySQL配置文件，如下图所示。
我正在使用VIM编辑器打开位于/etc/mysql目录内的“my.cnf”文件。

如果我们向下滚动，可以看见日志正被写入一个称为“mysql.log”的文件内。

我们还能看到记录“log_slow_queries” ，是记录SQL语句执行花了很长时间的日志。

现在一切就绪。如果有人用恶意查询数据库，我们可以在这些日志中观察到。如下所示：

上图显示了查询命中了名为“webservice”的数据库并试图使用SQL注入绕过认证。

⑧ 服务器日志分析工具，怎样查看服务器日志监控

工具/原料

网站服务器、运行中网站

网站日志分析工具、FTP工具

网站日志查看流程

登录虚拟主机的管理系统（本经验以万网为例），输入主机的账号以及密码，登陆。操作如下所示：

登录系统后台，找到"网站文件管理"中的"weblog日志下载",并点击。操作

点击"weblog日志下载"，可以看到很多以"ex"+时间命名的压缩文件可以下载。选择所需要下载的网站日唤咐志，点击下载。操作如下所示：

登录FTP工具，在根目录下找到"wwwlogs"文件，下载所需的压缩文件。注意：不同程序，日志存放目录不一样。操作

网上有很多日志分析软件，本经验以"光年seo日志分析系统"这款软件为例晌此子,点击"新建分析任务"。操作

在"任务导向"中，按照实际要求改任务名以及日志类别。宴链迅一般情况下可以不用修改。点击系下一步，操作

接着上一步，在"任务导向"中添加所需要分析的网站日志（也就是本经验第三步下载的文件），添加文件可以是一个或者多个。点击系下一步，操作

接着上一步，在"任务导向"中选择报告保存目录。点击系下一步，操作

完成之后，软件会生成一件文件夹，包含一个"报告"网页以及"files"文件，点击"报告"网页就可以查看网站日志数据了。

⑨ web log 日志分析工具怎么用

WebLog，它是一款专门用来分析网站日志文件的软件，可以对网站的来访者进行详细分析，包括当前活动会话统计、文件存取统计、搜索使用情况统计、浏览器/操作系统统计、错误统计等。

⑩ 如何进行网站日志分析

一、什么是网站日志

1.网站日志是记录web服务器接收处理请求以及运行时错误等各种原始信息的以·log结尾的文件并橡。

2.通过网站日志可以清楚的得知用户在什么IP、什么时间、用什么操作系统、什么浏览器、什么分辨率设备下访问了网站的哪个页面，是否访问成功。

3.搜索引擎也属于网站中的一类用户，我们今天的分享课，主要是针对搜索引擎这种用户在服务器留下的记录展开分析。

为了方便读懂搜索引擎日志，我们需要了解不同搜索引擎蜘蛛的标识，以下为4种搜索引擎的标识——*网络蜘蛛：Baispider*搜狗：SogouNewsSpider*360：360Spider*谷歌：Googlebot

二、如何看懂网站日志

（以下为一段日志记录）

58.180.251.134--[25/Mar/2015:13:24:33+0800]"GET/m53256.html

index-1s2i2p2""Mozilla/5.0

(WindowsNT6.1)AppleWebKit/537.36(KHTML,likeGecko)

Chrome/35.0.1916.153Safari/537.36SE2.XMetaSr1.0""-""-""-"

以下为字段解读：

通常日志文件较大的情况下，需要借助shell与python结合起来，做数据提取与分析。所以读懂网站日志中的字段就有利于日常的分析。这个在此不赘述，有兴趣的童鞋可以继续深入了解。

大型网站通常可以用以上的方法来进行做日志分析。

普通的个人站点，或者企业网站，则可以通过光年日志分析工具结合网络站长平台一起使用。

三、为什么要做网站日志分析

先来了解SEO流量的获取流程：抓取－－>索引－－－>排名－－－>点击－－－>流量

因此，要获得SEO流量的前提务必是，有价值的页面被搜索引擎抓取到。

四、怎么做网站日志分析

*定期监控搜索引擎抓取量变化，历史数据的横向纵向对比才能发现异常情况。*借助第三方站长平台，如网络站长平台，了解搜索引擎抓取频次变化。*借助光年日志分析工具，定期做数据记录，了解重要栏目、重要页面的抓取量变化。

举个栗子：

老站点（建站1年且有人维护的网站）：Seo流量出现异常波动。

分2种情况：

了解外界：了解外界的前提在于平时你得有一定的人脉基础，如果没有也没关系。泡2个地方——去搜索引擎站长平台或者加入搜索引擎站长群。比如，像网络搜索引擎，它拥有站长平台，也会相应建立站长QQ群。有人脉基础上，可以直接了解外界的情况——是否也出现类似幅度的波动？这个的前提要结合你短期做过的SEO操作一并考虑，避免误判。无人脉的情况，泡群、泡站长平台。通常如果是搜索引擎算法升级，会在群里或者站长平台有相关的小道信息出现。如果是搜索引擎自身算法升级导致的流量波动，那么就得根据新算法做相应的站内优化。比如，网络冰桶3.0版本提出：将严厉打击在网络移动搜索中，打断用户完整搜索路径的调起行为。如果站点有存在以上的情况就需要针对性的做优化：无论是通过对接的APPLINK调起，还是网页自主调起的应用，以及普通的网页，都哗神应是可返回，可关闭的。用绝芦旁户校验搜索结果的准确性，不需要额外下载APP或者权限。

分析内在：

在分析内在之前，再次抛出这个公式：Seo流量=抓取量*收录率（准确来说应该是索引率）*首页率*点击率

。当抓取频次出现异常必然引起抓取量的减少。因此，排除了外界的因素，就需要对网站的日志进行分析。如果你的站点是中文站点，且是网络站长平台的VIP用户。那么，你就可以先借助第三方站长平台的“抓取频次”工具（如，网络），先了解搜索引擎近期的抓取频次、抓取时间、异常页面。通常借助这个工具，我们可以对搜索引擎近期抓取情况有初步了解，并且可以借助这个工具，相应的找到一些解决办法。

在此先解释这个概念，方便理解：

1.抓取频次：抓取频次是搜索引擎在单位时间内（天级）对网站服务器抓取的总次数，如果搜索引擎对站点的抓取频次过高，很有可能造成服务器不稳定，蜘蛛会根据网站内容更新频率和服务器压力等因素自动调整抓取频次。

2.抓取时间：指的是搜索引擎每次抓取耗时。而影响抓取频次的可能原因有：

（1）抓取频次上限误调，调低了，则会直接影响到抓取量减少，抓取量减少则索引量少，流量相应减少。

小结一下：

老站如何做网站日志分析（针对中文站点）：外界排除：

了解搜索引擎最新算法是否发生变动、同行是否也有类似变化。

内在分析：

（1）使用工具：网络站长平台（非VIP账户看后文介绍）

（2）分析方法：主要使用抓取频次分析工具进行分析，网站抓取频次、抓取时间、异常页面情况等数据变化。并与相关部门进行对接解决。

五、用光年日志分析工具

非网络VIP：

步骤：

1.下载网站日志（如果是企业站点，可以直接让运维部门的童鞋帮忙下载，如果是个人站长，直接在你所购买的虚拟主机后台进行下载，文件以.log为结尾的便是）

2.打开光年日志分析工具，上传网站日志。

3.查看分析结果。主要维度有这几个：

（1）概况分析：各种爬虫的总抓取量、总停留时间、总访问次数。

（2）目录分析：各种爬虫抓取各目录的情况分析。通过这个可以了解到搜索引擎对一些重要栏目的抓取情况，又抓取了哪些无效的页面。

（3）页面分析：通过页面分析可以了解到经常被重复抓取的页面有哪些，可以相应的做优化调整。比如，像网站的一些注册页面及登录页面，经常会发现多次被抓取，发现这种情况，我们通常会将登录/注册页面进行屏蔽处理。

（4）状态码分析主要分为2种，爬虫状态码以及用户状态码。主要反应用户/爬虫访问页面时的页面状态。通过页面状态码，我们可以了解到页面状态，做相应调整，如，当网站存在大量404页面。那就需要进一步排查，比如，有些团购页面，团购过期后，页面就直接变成404了，但并未向网络站长平台提交死链清单，则容易造成无效抓取。

web日志分析系统

与web日志分析系统相关的内容