`
yishh
  • 浏览: 17705 次
  • 来自: ...
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

HTTP访问日志记录和分析

阅读更多
    公司自研的嵌入式浏览器发布运行已经有一段时间了,一直没有做详细的数据统计,这次提出需求,需要较详细的统计数据。

    浏览器是通过代理服务器访问网页内容,在代理服务器上做了一次协议转换,将html页面转换为私有的二进制协议返回浏览器端,以节省流量和加快浏览速度。所以要增加统计数据只需要在代理服务器端进行处理。

    需要考虑的是如何记录用户访问数据,公司现已有一套数据仓库和数据分析系统,也有专门的人员做数据分析。所以最早考虑的方案是直接将用户的HTTP访问记录写入数据库,然后由数据仓库的分析人员定时导入到数据仓库进行数据分析。但是考虑到目前数据仓库处理和分析数据需要的时间较长,统计数据的即时性有一定欠缺。

    最终决定采用记录到日志文件的方式,采用apache的http日志格式:
     "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\""
因为会访问大量不同站点,所以在最前面增加了Host项,如下:
    "%host %h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\""

然后直接采用Awstats进行日志分析。
  
    因为代理服务部署了多个节点,并分布在不同的IDC,所以还面临着日志如何合并处理的问题,目前只针对单个服务器上的日志做了合并,不同服务器的数据还无法合并。
    但是http日志可以很容易的导入到数据仓库中,因此总的日志的统计分析可以考虑在后期使用数据仓库进行。
0
0
分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics