`
learnmore
  • 浏览: 589219 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

关于大数据表的拆分

 
阅读更多
由于数据表的数据量预估会很大,因此开始考虑对表进行拆分,把超过一个月的数据转到历史表,历史表的表结构和当前表一样,以下做法只是一种思路,记录下来和大家分享一下。
数据表称为A表,历史表称为B表
1.创建一个临时表,临时表中只有一个字段就是表A的主键
2.计算表A中超过30天的数据有多少条,count(1)
3.计算数据在转移时需要提交多少次,假设一次提交5000条数据,如果有1万数据,那么就提交两次,如果有1.5万数据,提交三次(三次循环)
4.每次抓取5000条主键id存入临时表(select id from A where time>30 fetch 5000 row only)
5.根据临时表中的id,把表A的数据查出来插入表B(insert into B (select * from A where id in (select id from 临时表)))
6.清空临时表中的数据
7.删除表A中对应的纪录(delete from A where id in (select id from 临时表))

注意:4.5.6.7需要在一个事务中执行,每次循环都有事务控制
分享到:
评论

相关推荐

    excel大数据拆分

    几万条的excel根据标题进行拆分,拆分成工作薄。

    C# Socket 客户端服务端封装 支持多连接处理 Tasks多线程 队列处理 大数据拆分包处理

    Socket 客户端代码封装、服务端代码封装,让使用Socket更简单。 同时服务端支持超过客户端连接(测试超过1万个同时连接稳定运行),Tasks多线程 队列处理 大数据拆分包处理

    angular-cluster:将大数据拆分为小部分

    角簇将大数据拆分为小部分例子

    剖析大数据.docx

    我们可以将一套完整的大数据平台拆分成几个不同的技术领域。从宏观上来看,大数据平台包含了三个重要的技术部分。 首先是数据交易技术。这一部分技术所从事的工作,是对一些传统的关系型数据或者非结构化数据进行...

    大数据平台构建:MapReduce的重要概念.pptx

    大数据场景当中我们处理的数据量非常之大,任务也很重,于是我们通常采用分治的思想,把这样一个大任务拆分为数个本质相同却又互相独立的小任务(就像将一个大面包切分成多块小的面包),这些小任务同时进行计算,后...

    大数据分表的问题

    关于mysql单表存储量过大造成的系统性能优化做的相关单表拆分来解决数据库单表无法超过系统承受范围的功能模块。

    基于大数据的数据仓库-数据仓库建模基本理论.pdf

    星型模型: 雪花模型: 星型模型和雪花模型的主要区别在于对维度表的拆分,对于雪花模型,维度表的设计更加规范,⼀般符合3NF;⽽星型模型,⼀般采⽤降维 的操作,利⽤冗余来避免模型过于复杂,提⾼易⽤性和分析...

    大数据基础知识培训

    MapRedce:并行计算架构,将计算任务拆分成大量可以独立运行的子任务,接着并行运算,另外会有一个系统调度的架构负责收集和汇总每个子任务的分析结果 HBase: 类似Google BigTable的分布式列式数据库,与Pig/Hive很...

    大数据、数据挖掘与智慧运营.pptx

    大数据、数据挖掘与智慧运营 演讲人 2025-11-11 大数据、数据挖掘与智慧运营全文共64页,当前为第1页。... 2.4 数据字段的衍生 2 数据统计与数据预处理 2.4.2 统计特征的构造 2.4.1 数据字段的拆分 2.

    大数据与健康生活.docx

    在这里可以采用MySQL数据库,利用分布式存储技术,将一张很大的表中的记录拆分到不同的节点上去进行查询。分析方面,Hadoop、MapReduce和Spark等分布式处理方式已经成为大数据处理各环节的通用处理方法。 大数据的...

    数据脱敏大数据架构设计.docx

    这样的拆分,也是考量到每个环节的瓶颈都不一样,目前预估不是很精确,这样可以为后续扩展提供方便性。 数据脱敏、数据识别需要单独独立出来,原因:本身的服务不在数据同步中,可能提前预处理进行。 通过集群部署...

    大数据在医疗领域的应用.docx

    但是在医疗大数据的支持下,可以汇整、拆分、关联更多名医专家的诊疗经验和过往病历,从而为使用者提供更多的临床病例分析和治疗路径,为其进行临床决策提供可靠依据,从而实现临床路径的优化。 例如在今年5月获...

    论文研究-基于Spark的两表等值连接过程优化.pdf

    大数据环境下大表之间等值连接的效率更低。为了解决该问题,提出了一种基于Spark的两表等值连接过程优化方法。首先根据数据价值密度特征构建Bloom filter完成表的过滤操作;其次结合simi-join和partition join两者的...

    基于大数据的数据分析系统架构.doc

    第二,分布式存储,所谓分布式存储就是将一个大文 件拆分为多个小文件分别存储到不同的主机,通过分片式管理技术对文件进行管理。第 三,数据的检索和存储相结合,基于大数据的数据分析面临着海量的数据和多种数据类...

    大数据防爬虫项目开发实战

    3.实现数据预处理的数据清洗、脱敏、拆分、分类(⻜⾏类型/操作类型,单程/往返)、解析等功能 4.实现数据预处理的数据历史爬⾍、结构化、数据推送、数据预处理监控、前端读取后端数据等功能 5.读取预处理后的数据、...

    大数据迁移实践之路.pdf

    ⼆、拆分规则 根据上述⼤数据表的数据分布特点,建⽴三套表结构:运⾏表、历史表和备份表。运⾏表仅存储正在运⾏的流程数据,流程结束后(正 常完成或者终⽌)将基本流程以及其所属⼦流程相关的所有数据(流程实例、...

    MS SQL Server中大数据量表的查询优化

    在SQL Server 2000中,可以通过分区视图的定义来支持大数据量表的水平拆分和查询时的数据合并,且查询引擎提供的优化机制,使得SQL Server在大数据量条件下的查询性能得到了明显改进.最后,指础了本解决方法所带来的问题...

    大数据 Excel 通过 Kettle 进行数据清洗

    大数据Excel通过Kettle 穿插javascript进行数据清洗 在将数据导入Excel里

    基于MapReduce作业拆分组合机制的并行ETL组件实现.pdf

    基于MapReduce作业拆分组合机制的并行ETL组件实现.pdf基于MapReduce作业拆分组合机制的并行ETL组件实现.pdf基于MapReduce作业拆分组合机制的并行ETL组件实现.pdf基于MapReduce作业拆分组合机制的并行ETL组件实现.pdf...

Global site tag (gtag.js) - Google Analytics