`
lianhua
  • 浏览: 21644 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

大数据去重存储过程

 
阅读更多

分页调用存储过程

DELIMITER $$

USE `new_stat`$$

DROP PROCEDURE IF EXISTS `callRefUrl`$$

CREATE DEFINER=`root`@`219.224.99.0/255.255.255.0` PROCEDURE `callRefUrl`()
BEGIN
    DECLARE rows_size INT DEFAULT 0;
    DECLARE pagecount INT DEFAULT 0;
    DECLARE pageSize INT DEFAULT 0;
    DECLARE i INT;
    SET @COUNT_STRING ='SELECT count(urlhash) INTO @ROWS_TOTAL FROM stat_temprefurl';
    PREPARE count_stmt FROM @COUNT_STRING;
    EXECUTE count_stmt;
    DEALLOCATE PREPARE count_stmt;
    SET rows_size = @ROWS_TOTAL;
    SET pageSize =10000;
    IF (rows_size <= pageSize) THEN
                    SET pagecount = 1;
                    ELSE IF (rows_size % pageSize > 0) THEN
                    SET pagecount = rows_size / pageSize + 1;
                    ELSE
                     SET pagecount = rows_size / pageSize;
            END IF;
        END IF;
    SELECT pagecount;
    SET i=0;
    WHILE i<pagecount DO
        CALL new_stat.copyRefUrl();
        SET i=i+1;
    END WHILE; 
    END$$
DELIMITER ;

 

数据去重存储过程

 

DELIMITER $$

USE `new_stat`$$

DROP PROCEDURE IF EXISTS `copyRefUrl`$$

CREATE DEFINER=`root`@`219.224.99.0/255.255.255.0` PROCEDURE `copyRefUrl`()
BEGIN
    DECLARE done INT DEFAULT 0;
    DECLARE urlhash_t VARCHAR(64) DEFAULT ''; 
    DECLARE url_cur CURSOR FOR SELECT urlhash FROM stat_temprefurl LIMIT 0,10000;
    DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = 1;
    OPEN url_cur;  
    REPEAT
    FETCH url_cur INTO urlhash_t;
    IF NOT done THEN
    IF EXISTS(SELECT * FROM stat_refurl WHERE urlhash=urlhash_t) THEN  
    DELETE FROM  stat_temprefurl WHERE urlhash=urlhash_t;
    END IF;
    END IF;
    UNTIL done END REPEAT;
    CLOSE url_cur;
    INSERT INTO stat_refurl SELECT url,urlhash FROM stat_temprefurl;
    TRUNCATE TABLE stat_temprefurl;
    END$$

DELIMITER ;

 

 

分享到:
评论

相关推荐

    教育大数据模型设计方案.docx

    对收集到的原始数据进行预处理,包括数据清洗、去重、缺失值处理等。 设计数据清洗规则和方法,确保数据的准确性和一致性。 四、模型构建与选择 根据教育数据的特点和业务需求,选择合适的模型算法,如预测模型、...

    智能医疗大数据.pptx

    2 健康医疗大数据概述 健康医疗大数据平台架构 健康医疗大数据的采集处理与存储 健康医疗大数据平台 智能医疗大数据全文共20页,当前为第2页。 1. 健康医疗大数据概述 健康医疗大数据是指所有与医疗卫生和生命健康...

    大数据的容灾备份.docx

    现在去重的技术已经十分成熟,浪擎DAYS产品系列也集成存储备份及数据去重功能。这样可以全面减少数据量。 非复合型存储文件增量传输 现在多数的非结构化数据是视频文件、MP3文件或Lotus和Exchange产生的邮件文件等...

    高速公路大数据解决方案-高速公路大数据平台解决方案-高速公路大数据平台建设规划方案

    高速公路大数据解决方案旨在通过收集、整合、分析和应用高速公路运营过程中产生的海量数据,提升高速公路管理效率,优化出行体验,并助力相关决策制定。以下是一个高速公路大数据解决方案的概述: 一、数据收集与...

    大数据集成课程设计详解

    2. 数据采集:通过网络爬虫、API 接口等方式采集数据,并存储到本地或云端数据库中。 3. 数据清洗:对采集的数据进行去重、去噪、规范化、填充缺失值等清洗操作,以确保数据的准确性和完整性。 4. 数据集成:将...

    大数据治理模型设计方案

    大数据治理模型设计方案 ... 前后端将采集到的数据给到数据部门,数据部门通过ETL工具将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程,目的是将散落和零乱的数据集中存储起来。  03存

    基于大数据技术的用户兴趣取向分析

    首先基于flink对数据进行预处理,利用hbase对数据进行去重,然后基于hive构建数据仓库,使用hdfs实现数据存储,基于sparkml的随机森林算法推测出模型数据,将模型数据与预测数据整合实现数据预测,预测结果使用mysql...

    中医药与大数据.docx

    大数据相关技术紧紧围绕数据展开,数据的采集、整理、传输、存储、安全、分析、呈现和应用等等都属大数据的范畴。中医药在抗击新冠疫情的过程中发挥了重要作用,面临中医药发展的重要契机,中医药如何借助数字化...

    金融大数据服务平台解决方案.docx

    同时,对数据进行清洗、去重、格式转换等操作,确保数据质量和准确性。 数据存储与管理:采用分布式存储系统,对海量数据进行存储和管理。根据数据类型和业务需求,选择合适的数据存储格式和数据库类型,如Hadoop、...

    大数据地理可视化,完整demo

    在当今社交媒体时代,视频和帖子评论数据成为了非常有价值的资源。它们不仅能够帮助企业和个人了解用户的反馈和需求,...这个模块需要实现各种数据清理和标准化功能,如去重、分词、情感分析等。处理后的数据将更加结构化

    基于角色对称加密的云数据安全去重

    云计算和大数据技术的飞速发展促使人们进入大数据时代,越来越多的企业和个人选择将数据外包至云服务提供商。数据量的爆炸式增长态势、占据大量存储空间以及庞大的管理开销给云存储带来巨大压力。同时,如何有效防止...

    大数据高频面试题.pdf

    )) 对源RDD进⾏去重后返回⼀个新的RDD groupByKey([numTasks]) 在⼀个(K,V)的RDD上调⽤,返回⼀个(K, Iterator[V])的RDD reduceByKey(func, [numTasks]) 在⼀个(K,V)的RDD上调⽤,返回⼀个(K,V)的RDD,使⽤指定的...

    Spark分布式内存计算框架视频教程

    手把手视频详细讲解项目开发全过程,需要的小伙伴自行百度网盘下载,链接见附件,永久有效。 课程简介 知识点介绍、代码演示、逻辑分析、灵活举例、使用图形的方式详细演示代码的流程和细节、整合企业级实战案例,...

    大数据的一些面试题.pdf

    ⼋、外排序 适⽤范围:⼤数据的排序,去重 基本原理及要点:外排序的归并⽅法,置换选择败者树原理,最优归并树 扩展: 问题实例: 1).有⼀个1G⼤⼩的⼀个⽂件,⾥⾯每⼀⾏是⼀个词,词的⼤⼩不超过16个字节,内存...

    Fly.Box 企业网盘 v2.2.1

    1.2文件去重、更省空间在我们各种存储设备中,通常有很多内容一样的同一个文件被存储多份,分布在不同的文件夹、分区或存储设备中,占用了很多存储空间,而使得这些空间白白浪费掉。Fly.Box 文件管理软件在存储的...

    2023 OLAP峰会(公开)PPT汇总(25份).zip

    Doris Bitmap 精确去重优化实践 4、云原生OLAP论坛 智能广告系统基于云原生 OLAP 的应用实践 云原生OLAP架构的最佳实践 金融数字化转型中OLAP的探索和实践 5、OLAP实时查询与高可用论坛 高并发实时查询技术 大数据...

    人工智能+智能运维平台建设综合解决方案.pptx

    AIOps的技术栈 可视化 机器学习 算法 分析 计算 大数据 数据 事件 日志 监控 工单 任务 全量,海量,多样性,复杂性IT数据 集中统一管理,历史数据存储,实时数据存储 数据建模,模式识别,趋势识别,故障隔离 智能...

    人工智能+智能运维平台解决方案.pptx

    AIOps的技术栈 可视化 机器学习 算法 分析 计算 大数据 数据 事件 日志 监控 工单 任务 全量,海量,多样性,复杂性IT数据 集中统一管理,历史数据存储,实时数据存储 数据建模,模式识别,趋势识别,故障隔离 智能...

    人工智能+智能运维平台解决方案(1).pptx

    AIOps的技术栈 可视化 机器学习 算法 分析 计算 大数据 数据 事件 日志 监控 工单 任务 全量,海量,多样性,复杂性IT数据 集中统一管理,历史数据存储,实时数据存储 数据建模,模式识别,趋势识别,故障隔离 智能...

    flink-learning:flink学习博客。 http://www.54tianzhisheng.cn含Flink入门,概念,原理,实战,性能调优,子程序解析等内容。涉及Flink连接器,指标,库,DataStream API,表API和SQL等内容的学习案例,还有Flink落地应用的大型项目案例(PVUV,日志存储,百亿数据实时去重,监控细分)分享。欢迎大家支持我的专栏《大数据实时计算引擎Flink实战与性能优化》

    Flink学习 麻烦路过的各位亲亲给这个项目点个star,太不易了,写了这么多,算是对我坚持下来的一种鼓励吧! 随着时间的推移观星人 本项目结构 如何建造 也许您的Maven conf文件settings.xml镜像可以添加aliyun中央...

Global site tag (gtag.js) - Google Analytics