`
cakin24
  • 浏览: 1333945 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

python大数据分析操作系统日志

阅读更多

一 代码

1、大文件切分
import os
import os.path
import time
def FileSplit(sourceFile, targetFolder):
    if not os.path.isfile(sourceFile):
        print(sourceFile, ' does not exist.')
        return
    if not os.path.isdir(targetFolder):
        os.mkdir(targetFolder)
    tempData = []
    number = 1000
    fileNum = 1
    linesRead = 0    
    with open(sourceFile, 'r') as srcFile:
        dataLine = srcFile.readline().strip()
        while dataLine:
            for i in range(number):
                tempData.append(dataLine)                
                dataLine = srcFile.readline()                
                if not dataLine:
                    break
            desFile = os.path.join(targetFolder, sourceFile[0:-4] + str(fileNum) + '.txt')
            with open(desFile, 'a+') as f:
                f.writelines(tempData)
            tempData = []
            fileNum = fileNum + 1       
if __name__ == '__main__':
    #sourceFile = input('Input the source file to split:')
    #targetFolder = input('Input the target folder you want to place the split files:')
    sourceFile = 'test.txt'
    targetFolder = 'test'
    FileSplit(sourceFile, targetFolder)
 
2、Mapper代码
import os
import re
import threading
import time
def Map(sourceFile):
    if not os.path.exists(sourceFile):
        print(sourceFile, ' does not exist.')
        return    
    pattern = re.compile(r'[0-9]{1,2}/[0-9]{1,2}/[0-9]{4}')
    result = {}
    with open(sourceFile, 'r') as srcFile:
        for dataLine in srcFile:
            r = pattern.findall(dataLine)
            if r:
                t = result.get(r[0], 0)
                t += 1
                result[r[0]] = t
    desFile = sourceFile[0:-4] + '_map.txt'
    with open(desFile, 'a+') as fp:
        for k, v in result.items():
            fp.write(k + ':' + str(v) + '\n')
if __name__ == '__main__':
    desFolder = 'test'
    files = os.listdir(desFolder)
    
    #如果不使用多线程,可以直接这样写
    '''for f in files:
        Map(desFolder + '\\' + f)'''
    
    #使用多线程
    def Main(i):
        Map(desFolder + '\\' + files[i])
    fileNumber = len(files)
    for i in range(fileNumber):
        t = threading.Thread(target = Main, args =(i,))
        t.start()
 
3.Reducer代码
import os
def Reduce(sourceFolder, targetFile):
    if not os.path.isdir(sourceFolder):
        print(sourceFolder, ' does not exist.')
        return
    result = {}
    #Deal only with the mapped files
    allFiles = [sourceFolder+'\\'+f for f in os.listdir(sourceFolder) if f.endswith('_map.txt')]
    for f in allFiles:
        with open(f, 'r') as fp:
            for line in fp:
                line = line.strip()
                if not line:
                    continue
                position = line.index(':')
                key = line[0:position]
                value = int(line[position + 1:])
                result[key] = result.get(key,0) + value
    with open(targetFile, 'w') as fp:
        for k,v in result.items():
            fp.write(k + ':' + str(v) + '\n')
if __name__ == '__main__':
    Reduce('test', 'test\\result.txt')
 
二 运行结果
依次运行上面3个程序,得到最终结果:
07/10/2013:4634
07/16/2013:51
08/15/2013:3958
07/11/2013:1
10/09/2013:733
12/11/2013:564
02/12/2014:4102
05/14/2014:737
分享到:
评论

相关推荐

    Python实现的大数据分析操作系统日志功能示例

    主要介绍了Python实现的大数据分析操作系统日志功能,涉及Python大文件切分、读取、多线程操作等相关使用技巧,需要的朋友可以参考下

    基于知识图谱和推荐系统的药物靶标相互作用预测python源码(含操作说明).zip

    基于知识图谱和推荐系统的药物靶标相互作用预测python源码(含操作说明).zip 本代码使用yamanishi_08数据集,其他数据集请自行处理 进入data文件夹运行对应数据集的.py文件来下载数据集 进入eg_model文件夹运行eg_...

    Python实现Can接收发送 DBC分析报文 周立功ZLG 绘制曲线 支持离线回放.rar

    Python实现Can接收发送 DBC分析报文 绘制曲线 支持离线回放 CAN分析工具 环境:windows & python3 设备:周立功USBCAN-I(可在源码中修改支持更多设备) 多种周立功CAN设备 发送数据 导入DBC文件 数据保存(csv) ...

    基于python实现的linux后台日志监控小项目.zip

    软件开发设计:应用软件开发、系统...云计算与大数据:包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    毕业设计python基于django框架流量计远程抄表管理系统源码+数据库文件.zip

    系统对流量计的数据进行采集(有手动和自动两种方式)、监测、纪录,并进行数据分析处理,形成各种图形和报表,实现远程自动抄表。 动态显示功能。可定时或随机在远程抄表系统网络图画面上动态显示每只气表的用气量和...

    基于标签的用户行为日志大数据分析系统.zip

    包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。 包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、python...

    2014年给某家公司开发一套基于集群的后台日志分析系统.zip

    2014年给某家公司开发一套基于集群...云计算与大数据:包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    基于hadoop对某网站日志分析部署实践课程设计报告参考模板.doc

    至此,我们通过Python网络爬虫手段进行数据抓取,将我们网站数据(2013-05-30,2013-05-31)保存为两个日志文件,由于文件大小超出我们一般的分析工具处理的范围,故借助Hadoop来完成本次的实践。 2. 总体设计 2.1 ...

    计算机专业毕业设计-基于大数据的数据实时分析预警系统

    数据处理单元可以实现数据业务逻辑的编写、数据分析、清洗、归并等操作。该模块将常用的数据处理操作,如表数据输入、表数据输出、执行sql脚本等操作封装成组件模块,在进行作业任务开发时可直接调用函数组件,通过...

    android离线系统日志工具.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    sentry php可似化日志管理系统.zip

    sentry php可似化日志管理系统,...云计算与大数据:包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    PHP日志系统.zip

    软件开发设计:应用软件开发、系统...云计算与大数据:包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    Android 日志系统.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    php开发的日志系统.zip

    软件开发设计:应用软件开发、系统...云计算与大数据:包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    Qt自制简易好看的日志系统.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    iOS 的快捷的真机日志读写系统.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    Qt日志系统log4qt的使用例程.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    毕业设计&课程设计-可以纪录学生选课日志且人机交互良好的单机学生选课系统。.zip

    、以学生选课系统的基本...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    iOS 系统log打印 保存三天时间日志 存在沙河地址 分享方式导出.zip

    软件开发设计:PHP、QT、...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

    RigEye实时数据监控系统是一款可视化低代码监控系统。.zip

    RigEye实时数据监控系统是...云计算与大数据:数据集、包括云计算平台、大数据分析、人工智能、机器学习等,云计算是一种基于互联网的计算方式,通过这种方式,共享的软硬件资源和信息可以按需提供给计算机和其他设备。

Global site tag (gtag.js) - Google Analytics