`
lz1130
  • 浏览: 403366 次
  • 性别: Icon_minigender_1
  • 来自: 福建
社区版块
存档分类
最新评论

WEB日志的一般性分析

阅读更多
转自:http://www.sunnyu.com/?p=8

随着网站正式运行,我们可以通过通用的免费日志分析工具比如awstats获得一些实际访问网站的信息,例如每天ip量,pv量,用户所用的的浏览器,用户所用的操作系统等,但是有时候希望通过手工方式从WEB日志文件中获得一些信息,下面列出了一些最近一段时间我经常在用的命令

获得访问前10位的ip地址
cat access.log|gawk '{print $1}' |sort|uniq -c|sort -nr |head -10

访问次数最多的文件或页面
cat access.log|gawk '{print $11}'|sort|uniq -c|sort -nr

通过子域名访问次数,依据referer来计算,稍有不准
cat access.log | awk '{print $11}' | sed -e ' s/http:\/\///' -e ' s/\/.*//' | sort | uniq -c | sort -rn | head -20

列出传输大小最大的几个文件
cat www.access.log |awk '($7~/\.php/){print $10 " " $1 " " $4  " " $7}'|sort -nr|head -100

列出输出大于200000byte(约200kb)的页面以及对应页面发生次数
cat www.access.log |awk '($10 > 200000 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

如果日志最后一列记录的是页面文件传输时间,则有列出到客户端最耗时的页面
cat www.access.log |awk '($7~/\.php/){print $NF " " $1 " " $4  " " $7}'|sort -nr|head -100

列出最最耗时的页面(超过60秒的)的以及对应页面发生次数
cat www.access.log |awk '($NF > 60 && $7~/\.php/){print $7}'|sort -n|uniq -c|sort -nr|head -100

列出传输时间超过 30 秒的文件
cat www.access.log |awk '($NF > 30){print $7}'|sort -n|uniq -c
分享到:
评论

相关推荐

    Web日志文件的异常数据挖掘算法及其应用

    :从数量化角度给出了异常数据的一般性定义,以Web服务器日志文件数据为依据,讨论了挖掘异常数据的方法和途径;给出了基于距离的单指标的离散统计法和综合统计法,并结合校园网作了实际的分析处理。结果表明,该...

    使用并行计算和 HBASE 预处理服务器端 Web 日志的最佳算法-研究论文

    一般而言,Web 可用性分析使用两种类型的日志,即服务器端日志和客户端日志。 预处理包括四个阶段,数据提取、数据清理、用户识别、会话识别和路径完成。 本文介绍了一个使用 hadoop 工具为 Vizhamurasu 新闻网站...

    轻量级、简单易用的 Web 管理软件开发平台 开发一般产品的Web管控台,为分布式业务系统做集中式管理

    轻舟实现了自动化的前端网页生成、后端参数校验,并内置了用户管理、权限控制、日志接口、系统升级等开箱即用的通用能力,使得开发者只需专注业务本身代码的编写即可,从而提升Web应用的开发效率。与其它类似软件...

    论文研究-基于多重特征的双层Web用户聚类方法.pdf

    通过对Web日志的聚类分析,可以发现用户的群体特征,甚至可以预测用户将来的访问模式,进而为不同的用户群提供个性化服务。针对现有方法的一般缺陷,包括特征选择单一无法充分体现用户兴趣偏好和传统Hierarchical...

    论文研究-基于MapReduce的Web日志挖掘.pdf

    LTE系统的设计、建模以及实现方法对仿真平台的有效性有直接影响,而目前功能较全的平台一般仿真速度较慢,针对这一问题,给出了LTE系统级仿真平台建模框架,并利用CPU多核以及OpenMP并行计算技术,对平台中耗时较多...

    SQL注入攻击原理分析及JavaWeb环境下的防范措施.pdf

    SQL 注入是从正常的WWW 端口访问,而且表面看起来跟一般的Web 页面访问没什么区别,所以目前市面的防火墙都不会对SQL 注入发出警报,如果管理员没查看日志的习惯,可能被入侵很长时间都不会发觉。   其实...

    【PerfDog性能狗 v5.1.210204】移动全平台性能测试分析专家+APP应用游戏性能测试

    当然也可能用到系统XPC Server服务进程,如一般web浏览器会用到webkit。 Android平台,一般大型APP,比如游戏有时候是多进程协作运行(微信小游戏,微视等APP及王者荣耀等游戏多子进程),可选择目标子进程进行针对性...

    WEB服务器安全测试方案.doc.doc

    WEB服务器安全测试方案1 WEB服务器安全测试方案 测试宗旨 确保网站能够安全的运行,所有文件处在安全的网络环境之下,并受到应有的保护 。 测试目的 本次测试旨在检验过去一段时间同事们的劳动成果,并确保网站开发...

    基于J2EE的博客系统的设计与实现毕业设计.doc

    Web 2.0和传统Web 1.0应用相比,有一个非常显著的特点,即:实时性和较高的交互性,正是因为这一实时 性和较高的交互性,传统的互联网开发技术也面临的严峻的挑战。在传统的应用中,内 容一旦发布,基本不会更新,...

    基于J2EE框架的个人博客系统项目毕业设计论文(源码和论文)

    技术上的可行性分析要考虑将来要采用的硬件和软件技术能否满足用户(这里是服务器,网速)提出的要求(如计算机的容量、速度等)。此外,还要考虑开发人员的水平,学习了两年的jsp开发,对于这个系统的编写,我想...

    连连银通支付WEB-DEMO开发包

    风控拦截是我们公司风控部门控制,认为有风控的订单会进行风控拦截,一般测试频繁时遇到比较多。可以申请测试白名单。 申请表在目录中 《对于商户测试需规则免疫的申请》 //测试白名单申请表 3.2、1001 商户...

    一种基于容错Web Services的日志恢复算法 (2005年)

    一般基于日志的容错恢复算法会丢失请求。文章基于被动复制模式描述了一个基于日志的算法,其主要思想是将消息类型分类记载和恢复。该算法能有效克服请求丢失的情况。实验表明了该算法的正确性。

    IIS6.0 IIS,互联网信息服务

    IIS有默认的端口设置,只要稍有计算机知识的人都会记得这些端口的,要破解的话就十分的方便,所以尽量不要使用21这个默认端口号,并启用日志,以便FTP服务出现异常时检查。 [编辑本段]对IIS服务的远程管理  三、对...

    WebApiWith.NET:如何使用.NET设计WebApi的示例和资源

    一般的 日志级别 日志类别 日志范围 记录事件 链接 塞里洛格链接 日志链接 弹性堆栈-Kibana,LogStash等链接 CorrelationId 链接 码头工人 样本DOCKERFILE 在Docker内部调试应用程序 链接 贮存 实体框架 精巧的人 ...

    MySQL性能调优与架构设计 - 简朝阳.mobi

    1、MySQL的主要适用场景 web网站系统,日志记录系统,数据仓库系统,嵌入式系统 2、物理文件 2.1、 日志文件含 错误日志,二进制日志,更新日志(5.0后不支持),查询日志,慢查询日志,redo日志 2.2、数据文件含 ....

    filezilla绿色版

    的目录可以把文件移动上一层,拖动相应的文件名为移动到相应目录,一般主机目录如图所示,db是给你传压缩包和下载压缩包的,log是日志文件存储地方,有的主机不提供日志,web就是你的web空间了,一般路径为/xx/web/...

    成都市安全服务目录(包括限价)

    安全分析服务 搭建大数据分析平台,对网络流量、设备日志、告警事件等数据,利用复杂关联技术等大数据分析技术,分析攻击特征,监测攻击行为,识别病毒木马、僵尸网络等威胁手段,对威胁的影响进行分析,确定政府...

    数据挖掘报告.docx

    但是在面向电子商务的数据挖掘中也存在很多问题急需解决,比如怎样将服务器的日志数据转化成适合某种数据挖掘技术的数据格式,怎样解决分布性、异构性数据源的挖掘,如何控制整个Web上知识发现过程等。随着硬件环境...

    Apache反向代理WebLogic

    部署应用时,考虑到WebLogic的负载负担和访问安全性,一般在WebLogic的前端架构一个反向代理服务器,将他们整合起来使用。而大多数采用的是开源的WEB服务器(Apache)。架构方式是将Apache置于前端作为WebLogic的...

Global site tag (gtag.js) - Google Analytics