公司自研的嵌入式浏览器发布运行已经有一段时间了,一直没有做详细的数据统计,这次提出需求,需要较详细的统计数据。
浏览器是通过代理服务器访问网页内容,在代理服务器上做了一次协议转换,将html页面转换为私有的二进制协议返回浏览器端,以节省流量和加快浏览速度。所以要增加统计数据只需要在代理服务器端进行处理。
需要考虑的是如何记录用户访问数据,公司现已有一套数据仓库和数据分析系统,也有专门的人员做数据分析。所以最早考虑的方案是直接将用户的HTTP访问记录写入数据库,然后由数据仓库的分析人员定时导入到数据仓库进行数据分析。但是考虑到目前数据仓库处理和分析数据需要的时间较长,统计数据的即时性有一定欠缺。
最终决定采用记录到日志文件的方式,采用apache的http日志格式:
"%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\""
因为会访问大量不同站点,所以在最前面增加了Host项,如下:
"%host %h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\""
然后直接采用Awstats进行日志分析。
因为代理服务部署了多个节点,并分布在不同的IDC,所以还面临着日志如何合并处理的问题,目前只针对单个服务器上的日志做了合并,不同服务器的数据还无法合并。
但是http日志可以很容易的导入到数据仓库中,因此总的日志的统计分析可以考虑在后期使用数据仓库进行。
分享到:
相关推荐
iis日志分析工具可分析谷歌,百度,soso,搜索,bing的来访记录,可以到处日期查看。可以查看指定蜘蛛,可以打开文件形式和文件形式。网站日志分析器_蜘蛛访问记录查看器
蜘蛛日志在线分析工具是一款开源的工具,可用于快速分析网站访问日志中搜索引擎网络爬虫的抓取记录。如果你的服务器运行在linux宝塔面板环境下,你只需要登录宝塔面板的linux控制面板,在左侧导航栏中点击”文件”,...
python apache日志分析 INTERNATIONAL MEDICAL SUMMIT FORUM ...当我们安装并启动Apache后,Apache会自动生成两个日志文件,这两个日志文件分别是访问日志access_log(在Windows上是access.log)和错误日志err
java 读取apache访问日志并将IP和时间入库,另一个线程分析数据记录,指定时间内超过规定的访问次数,将IP添加进防火墙。以防止ddos攻击。
快速分析搜索引擎网络爬虫抓取记录 如果是 linux 宝塔面板 的服务器自然环境,大家登陆宝塔面板linux控制面板后,点一下左边“文件”,在www下的wwwlogs文件目录中就能见到网站访问日志了, ps:经实测,Windows系统...
含有ip访问记录日志文件,可用于作为日志分析的数据集,使用样例:https://github.com/LuoCheng0104/KafkaSpark
如果是 linux 宝塔面板 的服务器自然环境,大家登陆宝塔面板linux控制面板后,点一下左边“文件”,在www下的wwwlogs文件目录中就能见到网站访问日志了, ps:经实测,Windows系统的服务器沒有日志记录功能。...
如果是 linux 宝塔面板 的服务器自然环境,大家登陆宝塔面板linux控制面板后,点一下左边“文件”,在www下的wwwlogs文件目录中就能见到网站访问日志了, ps:经实测,Windows系统的服务器沒有日志记录功能。...
服务器中的错误记录类似于这种: 124.65.133.242 – – [27/Oct/2014:14:30:51 +0800] “-” 400 0 “-” “-” 124.65.133.242 – – [27/Oct/2014:14:31:45 +0800] “-” 400 0 “-” “-” 124.65.133.242 – – ...
鑫鑫IIS日志分析器适合有独立主机或VPS、用IIS的站长使用,使用前请开启IIS日志功能,记录日志选项可以自定义,是站长必备利器,什么阿里妈妈量子统计 、百度统计、谷歌统计都是浮云了。鑫鑫日志分析工具不用修改...
访问日志分类: 为了便于分析 Apache 的访问日志, Apache 的默认配置文件中,按记录的信息不同 ( 用格式说明不同的信息 ) 将访问日志分为 4 类: 普通日志格式 (common log format,CLF)common 大多数日志分析软件...
支持批量对日志文件进行解读并对各类搜索引擎访问记录、异常状态码相关访问记录等seo关键信息加以标记,并可以作为条件针对性的筛选出有问题的页面,以及蜘蛛访问轨迹,可以分析网站日志统计出各类蜘蛛访问频次及...
逆火网站日志分析器可以对服务器上记录的网站访问数据进行全面的分析,支持自定义过滤,设置分析具体的内容,以生成用户最想知道的网站访问数据。报表近80多种,还有列表,表格以及3D图标,查看相当便利。用户可以...
分析您的NGINX访问日志并为人们访问您的服务的位置创建精美的地图。 如何使用 首先,请确保您已安装python3.x和geolite2 。 可以使用pip install maxminddb-geolite2 python-geoip-geolite2通过pip pip install ...
IIS日志分析器 根据IIS的日志,可以分析出IP的访问,页面的访问,错误页面的访问,出错页面的记录,客户端浏览器的类型等等,很好用,不用注册,绿色版
日志记录模块则负责记录系统中的各种操作和事件,以便在出现问题时进行追踪和分析。我们采用了Log4j日志框架,实现了对系统日志的统一管理。通过配置不同的日志级别和输出方式,可以满足不同场景下的日志需求。此外...
它通过先进的权限控制算法和详尽的日志记录机制,为企业和组织提供了安全、可靠的管理解决方案。 在权限管理方面,Smart系统实现了用户、角色、权限的精细划分。系统内置了丰富的角色类型,如管理员、编辑、普通...
全百科SEO日志分析工具是每一个做SEO优化的必备工具之一。它可以帮助我们去分析网站的日志记录,通过全百科SEO日志分析工具,我们可以轻松了解自己网站的一切访问行为,如用户访问、蜘蛛爬行、黑客攻击等等。