`
hudeyong926
  • 浏览: 2016744 次
  • 来自: 武汉
社区版块
存档分类
最新评论

海量数据的删除策略

 
阅读更多

1.延迟删除
一条数据会被很多数据引用。当被引用的数据删除时,引用的数据也需要删除。这时候可以用延迟删除的方法。
例子:
用户发表的帖子,可以被转发到很多地方。所有转发过的贴都是对原帖的引用,用户接着把他的原帖删除,所有被转发过的帖子也需要进行清理。我们采用 的是延迟删除的方法,用户操作时,先直接删除原帖,被转发的贴,在点击时,会到原帖加载内容,这时发现原帖已经不存在,此时这条被点击的转发贴也会被删 除。

当用户访问引用的数据时,发现被引用的数据不存在,此时删除引用的数据。

2.线下删除
一条数据关联到很多数据。但这条数据是所有其他数据的入口。
例子:
一个扣扣群里,会有很多内容,相册,图片等等。在解散扣扣群时是不可能同步删除和该群相关的所有数据的。此时可以用线下删除的方法。先将扣扣群的 状态置为 inactive(解散)状态。然后提交一条任务,在指定的时候将所有和该扣扣群相关的数据都删除。任务可以在系统负载比较低的时候触发。因为扣扣群的状 态已经被设置为inactive状态,它也不会再被其他人访问到。所有访问需要加状态进行判断。

3.异步删除
当某个系统的服务和其他系统的服务做了集成后,业务数据就可能是相互关联的。当某个服务的数据被删除时,需要通知相关联的所有系统删除和他相关联的数据。
例子:
用户会对他所加入的群进行了偏好设置,比如对某个群的评价,是否接收该群的通知等等。而这些数据是存在用户系统(其他服务器)上的。当一个群组被 解散时,无法同步地调用用户系统的服务删除所有的数据。因为一个群组可能有几万甚至更多的成员。此时可以用异步的方式通知用户系统,群组系统发送一条“群 解散”消息给用户系统,用户系统接收到消息后,会把所有相关联的数据都清除。

延迟删除结合使用:
如果数据量很大的话异步删除也需要相当长的时间,这时可以结合使用延迟删除的方法。
当用户在用户中心点击某群的偏好设置时,系统发现该群组已经被删除,就通知用户该群不存在,并删除相关的偏好设置。

线下删除结合使用
数据量很大如果立即删除会给系统突发地带来相当大的负载,甚至可能会引起用户访问的响应率降低。这时需要采用线下删除的方法,将删除任务分割成很多很小的任务。分批地提交给系统定时处理。

4.不删除
有些相关联的数据,重要性很低,又有有效期。我们是不会再花费额外的代价去删除它们的。

例子:
系统会记录用户的访问足迹。用户可以查询他的这些访问足迹。
您在2011.02.03在群组B(链接)回复了C(链接)发表的帖子D(链接)。
当B被解散或D被删除后,不需要主动去清理这条数据。因为所有的访问足迹都是有有效期的,当有效期到了的时候,这条数据就会被自动清除。
但是当D被删除后,用户点击D链接会提示用户404。

 

分享到:
评论

相关推荐

    基于文件路径的重复数据删除集群的数据路由策略 (2014年)

    重复数据删除集群是解决不断增长的海量数据备份需求的一种有效方法。它的关键问题是数据路由策略,即如何把数据合理分配到集群内的各个节点。目前的数据路由策略利用文件或者数据段的最小数据块签名计算路由目标节点,...

    论文研究-海量样本数据集中小文件的存取优化研究.pdf

    HDFS)在海量样本数据集存储方面存在内存占用多、读取效率低的问题,以及分布式数据库HBase在存储文件名重复度和类似度高时产生访问热点的问题,结合样本数据集的特点、类型,提出一种面向样本数据集存取优化方案,...

    数据库实战存储、管理和检索海量的数据数据库实战存储、管理和检索海量的数据

    在软件开发和数据管理领域,数据库是至关重要的组成部分,它可以存储、管理和检索海量的数据,并为用户和应用程序提供可靠、高效的数据处理能力。 数据库实战的第一步是设计数据库结构。在这个阶段,开发者需要分析...

    基于大数据的数据清洗技术及运用.pdf

    数据筛选是数据清洗,数据挖掘, 数据分析中常用的手段,在海量的数据中,通过数据筛选对数据进 行分类,有助于进行科学数据清洗,对提高数据清洗的效率,保证数 据清洗的质量都起到重要作用。 数据筛选都需要利用数据库中...

    Oracle数据库设计策略及规范.docx

     基本策略 3.1 设计策略 分类拆分数据量大的表。 对于经常使用的表(如某些参数表或代码对照表),由于其使用频率很高,要尽量减少表中的记录数量。例如,银行的户主账表原来设计成一张表,虽然可以方便程序的设计...

    论文研究-SPARQL查询的关系代数表示与转换方法.pdf

    实验结果表明该方法不仅可以很好地删除噪声数据和冗余信息,尤其是类区域内样本,减小数据的不平衡度和样本总量,而且由于算法时间复杂度是线性阶的,在样本数量很大的情况下,运行速度非常快,适合从海量的数据中...

    基于滑动窗口的关联规则增量式更新算法 (2008年)

    现有的关联规则算法大多都致力于解决增量式更新问题,需要多次扫描数据集,无法对海量数据进行有效处理。针对此问题,提出了基于滑动窗口的关联规则增量式更新算法(SWIUA),利用滑动窗口进行数据更新,挖掘出用户感...

    存储方案整体设计.docx

    近线方式 为什么要近线存储 扫描加工后的海量数据需求的增加速度比想象中的更快。所带来的解决起来看似不难,只要购买更多的主存储设备即可,但因此会产生更多的生产效率和成本问题。 新的存储系统可能很快地超载--...

    Flume日志收集

    Flume是一个分布式、可靠、和高可用的海量日志聚合的系统,支持在系统中定制各类数据发送方,用于收集数据;同时,Flume提供对数据进行简单处理,并写到各种数据接受方(可定制)的能力。(1)可靠性当节点出现故障时...

    ASP EXCEL导入SQL

     针对上述问题,361CRM平台采用了分布式的存储系统,基于Map-Reduce来进行相应的检索、分析以及统计,实现了对于海量数据的统一操作。  这种结构能做到真正的分布式网络计算,有效降低网络流量,减轻客户端负担,...

    2009计算机 毕业设计 诚信体育用品

    SQL Server200是现今比较流行的数据库,他具有数据结构化,数据共享性高,数据独立性高以及数据由DBMS(数据库信息管理系统)统一管理和控制的优点。 2.2 数据流图 数据流图描述:用户初次在本网站购买商品需先注册为...

    FreeBSD操作系统设计与实现

    7.1.2 FreeBSD海量存储I/O子系统的结构 7.1.3 设备的命名和访问 7.2 GEOM层 7.2.1 术语和拓扑规则 7.2.2 改变拓扑 7.2.3 运行 7.2.4 拓扑的灵活性 7.3 CAM层 7.3.1 SCSI子系统 7.3.2 I/O请求通过CAM子系统的路径 7.4...

Global site tag (gtag.js) - Google Analytics