大数据去重存储过程 -

lianhua

浏览: 21647 次
性别:
来自: 北京

最近访客更多访客>>

xiaozi1331

月vs枫

liu2008aaa

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

大数据去重存储过程

博客分类：

大数据迁移

分页调用存储过程

DELIMITER $$

USE `new_stat`$$

DROP PROCEDURE IF EXISTS `callRefUrl`$$

CREATE DEFINER=`root`@`219.224.99.0/255.255.255.0` PROCEDURE `callRefUrl`()
BEGIN
    DECLARE rows_size INT DEFAULT 0;
    DECLARE pagecount INT DEFAULT 0;
    DECLARE pageSize INT DEFAULT 0;
    DECLARE i INT;
    SET @COUNT_STRING ='SELECT count(urlhash) INTO @ROWS_TOTAL FROM stat_temprefurl';
    PREPARE count_stmt FROM @COUNT_STRING;
    EXECUTE count_stmt;
    DEALLOCATE PREPARE count_stmt;
    SET rows_size = @ROWS_TOTAL;
    SET pageSize =10000;
    IF (rows_size <= pageSize) THEN
                    SET pagecount = 1;
                    ELSE IF (rows_size % pageSize > 0) THEN
                    SET pagecount = rows_size / pageSize + 1;
                    ELSE
                     SET pagecount = rows_size / pageSize;
            END IF;
        END IF;
    SELECT pagecount;
    SET i=0;
    WHILE i<pagecount DO
        CALL new_stat.copyRefUrl();
        SET i=i+1;
    END WHILE;
    END$$
DELIMITER ;

数据去重存储过程

DELIMITER $$

USE `new_stat`$$

DROP PROCEDURE IF EXISTS `copyRefUrl`$$

CREATE DEFINER=`root`@`219.224.99.0/255.255.255.0` PROCEDURE `copyRefUrl`()
BEGIN
    DECLARE done INT DEFAULT 0;
    DECLARE urlhash_t VARCHAR(64) DEFAULT '';
    DECLARE url_cur CURSOR FOR SELECT urlhash FROM stat_temprefurl LIMIT 0,10000;
    DECLARE CONTINUE HANDLER FOR NOT FOUND SET done = 1;
    OPEN url_cur;
    REPEAT
    FETCH url_cur INTO urlhash_t;
    IF NOT done THEN
    IF EXISTS(SELECT * FROM stat_refurl WHERE urlhash=urlhash_t) THEN
    DELETE FROM stat_temprefurl WHERE urlhash=urlhash_t;
    END IF;
    END IF;
    UNTIL done END REPEAT;
    CLOSE url_cur;
    INSERT INTO stat_refurl SELECT url,urlhash FROM stat_temprefurl;
    TRUNCATE TABLE stat_temprefurl;
    END$$

DELIMITER ;

分享到：

大数据表分区 | 大数据迁移新的

2014-04-22 15:53
浏览 1258
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

教育大数据模型设计方案.docx: 对收集到的原始数据进行预处理，包括数据清洗、去重、缺失值处理等。设计数据清洗规则和方法，确保数据的准确性和一致性。四、模型构建与选择根据教育数据的特点和业务需求，选择合适的模型算法，如预测模型、...

智能医疗大数据.pptx: 2 健康医疗大数据概述健康医疗大数据平台架构健康医疗大数据的采集处理与存储健康医疗大数据平台智能医疗大数据全文共20页，当前为第2页。 1. 健康医疗大数据概述健康医疗大数据是指所有与医疗卫生和生命健康...

大数据的容灾备份.docx: 现在去重的技术已经十分成熟，浪擎DAYS产品系列也集成存储备份及数据去重功能。这样可以全面减少数据量。非复合型存储文件增量传输现在多数的非结构化数据是视频文件、MP3文件或Lotus和Exchange产生的邮件文件等...

高速公路大数据解决方案-高速公路大数据平台解决方案-高速公路大数据平台建设规划方案: 高速公路大数据解决方案旨在通过收集、整合、分析和应用高速公路运营过程中产生的海量数据，提升高速公路管理效率，优化出行体验，并助力相关决策制定。以下是一个高速公路大数据解决方案的概述：一、数据收集与...

大数据集成课程设计详解: 2. 数据采集：通过网络爬虫、API 接口等方式采集数据，并存储到本地或云端数据库中。 3. 数据清洗：对采集的数据进行去重、去噪、规范化、填充缺失值等清洗操作，以确保数据的准确性和完整性。 4. 数据集成：将...

大数据治理模型设计方案: 大数据治理模型设计方案 ...　前后端将采集到的数据给到数据部门，数据部门通过ETL工具将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程，目的是将散落和零乱的数据集中存储起来。　03存

基于大数据技术的用户兴趣取向分析: 首先基于flink对数据进行预处理，利用hbase对数据进行去重，然后基于hive构建数据仓库，使用hdfs实现数据存储，基于sparkml的随机森林算法推测出模型数据，将模型数据与预测数据整合实现数据预测，预测结果使用mysql...

中医药与大数据.docx: 大数据相关技术紧紧围绕数据展开，数据的采集、整理、传输、存储、安全、分析、呈现和应用等等都属大数据的范畴。中医药在抗击新冠疫情的过程中发挥了重要作用，面临中医药发展的重要契机，中医药如何借助数字化...

金融大数据服务平台解决方案.docx: 同时，对数据进行清洗、去重、格式转换等操作，确保数据质量和准确性。数据存储与管理：采用分布式存储系统，对海量数据进行存储和管理。根据数据类型和业务需求，选择合适的数据存储格式和数据库类型，如Hadoop、...

大数据地理可视化，完整demo: 在当今社交媒体时代,视频和帖子评论数据成为了非常有价值的资源。它们不仅能够帮助企业和个人了解用户的反馈和需求,...这个模块需要实现各种数据清理和标准化功能,如去重、分词、情感分析等。处理后的数据将更加结构化

基于角色对称加密的云数据安全去重: 云计算和大数据技术的飞速发展促使人们进入大数据时代，越来越多的企业和个人选择将数据外包至云服务提供商。数据量的爆炸式增长态势、占据大量存储空间以及庞大的管理开销给云存储带来巨大压力。同时，如何有效防止...

大数据高频面试题.pdf: )) 对源RDD进⾏去重后返回⼀个新的RDD groupByKey([numTasks]) 在⼀个(K,V)的RDD上调⽤，返回⼀个(K, Iterator[V])的RDD reduceByKey(func, [numTasks]) 在⼀个(K,V)的RDD上调⽤，返回⼀个(K,V)的RDD，使⽤指定的...

Spark分布式内存计算框架视频教程: 手把手视频详细讲解项目开发全过程，需要的小伙伴自行百度网盘下载，链接见附件，永久有效。课程简介知识点介绍、代码演示、逻辑分析、灵活举例、使用图形的方式详细演示代码的流程和细节、整合企业级实战案例，...

大数据的一些面试题.pdf: ⼋、外排序适⽤范围：⼤数据的排序，去重基本原理及要点：外排序的归并⽅法，置换选择败者树原理，最优归并树扩展：问题实例： 1).有⼀个1G⼤⼩的⼀个⽂件，⾥⾯每⼀⾏是⼀个词，词的⼤⼩不超过16个字节，内存...

Fly.Box 企业网盘 v2.2.1: 1.2文件去重、更省空间在我们各种存储设备中，通常有很多内容一样的同一个文件被存储多份，分布在不同的文件夹、分区或存储设备中，占用了很多存储空间，而使得这些空间白白浪费掉。Fly.Box 文件管理软件在存储的...

2023 OLAP峰会（公开）PPT汇总（25份）.zip: Doris Bitmap 精确去重优化实践 4、云原生OLAP论坛智能广告系统基于云原生 OLAP 的应用实践云原生OLAP架构的最佳实践金融数字化转型中OLAP的探索和实践 5、OLAP实时查询与高可用论坛高并发实时查询技术大数据...

人工智能+智能运维平台建设综合解决方案.pptx: AIOps的技术栈可视化机器学习算法分析计算大数据数据事件日志监控工单任务全量，海量，多样性，复杂性IT数据集中统一管理，历史数据存储，实时数据存储数据建模，模式识别，趋势识别，故障隔离智能...

人工智能+智能运维平台解决方案.pptx: AIOps的技术栈可视化机器学习算法分析计算大数据数据事件日志监控工单任务全量，海量，多样性，复杂性IT数据集中统一管理，历史数据存储，实时数据存储数据建模，模式识别，趋势识别，故障隔离智能...

人工智能+智能运维平台解决方案(1).pptx: AIOps的技术栈可视化机器学习算法分析计算大数据数据事件日志监控工单任务全量，海量，多样性，复杂性IT数据集中统一管理，历史数据存储，实时数据存储数据建模，模式识别，趋势识别，故障隔离智能...

flink-learning：flink学习博客。 http://www.54tianzhisheng.cn含Flink入门，概念，原理，实战，性能调优，子程序解析等内容。涉及Flink连接器，指标，库，DataStream API，表API和SQL等内容的学习案例，还有Flink落地应用的大型项目案例（PVUV，日志存储，百亿数据实时去重，监控细分）分享。欢迎大家支持我的专栏《大数据实时计算引擎Flink实战与性能优化》: Flink学习麻烦路过的各位亲亲给这个项目点个star，太不易了，写了这么多，算是对我坚持下来的一种鼓励吧！随着时间的推移观星人本项目结构如何建造也许您的Maven conf文件settings.xml镜像可以添加aliyun中央...

最近访客 更多访客>>