`
wyf
  • 浏览: 424771 次
  • 性别: Icon_minigender_1
  • 来自: 唐山
社区版块
存档分类
最新评论

文档树状结构化目录管理方法

阅读更多

 

本文适用于附件(各类文档、图片和压缩包等,下同)比较多的应用系统(如:知识管理系统、集团 ERP 管理系统),可以对大批量的文档进行树状结构化目录存储,能迅速定位到服务器端的文档,提高文档据名查询的速度。

目前大多数应用系统对附件 的存储重视不够,一般在系统应用的初期阶段附件不多,所以查询的性能体现不出来。而对于像知识管理系统这样的知识分享系统,经过多年的运行后,会产生上百万的文档,如果不对文档进行合理化的管理,那么查询性能会越用越慢。

目前对附件的存储大概有一下几种方式: 1 。把附件放在服务器端单个文件夹中,那么在附件达到上百万时,从这些文件中查询一个文件,速度是何其慢; 2 。按日期存放,这种方式应该说还不错,但这种方式会让日期文件夹无限增多,会出现有些日期文件夹中附件多,有些日期文件夹中附件少的不均衡现象; 3 。把附件存在数据库中,这种方法比较适合附件比较少的情况,如果附件达到上百万,那么当几千人并行去数据库读取附件时,那么会遇到如下问题: 1 )数据库的 I\O 性能瓶颈问题 ;2 )把文件以流的方式读入到内存,再到前台展示或下载,那么对服务器的内存负载也是一个很大的压力 ;3 )把文件以流的方式在服务器端先转化为文档,再去前台展示或下载,而转换为文档又需要一定时间,如果是一个大文档转化时间会更长; 4 )如果文件名称相同的话,那可能会遇到错误。

所以针对目前的现状,我对此提出一种方法,对附件进行树状结构化目录管理,就是把附件以原始文档或对其进行压缩形成压缩包的形式存放在硬盘上,但这些文档存放时是根据数据库中附件记录的编码 ID 以一种树状的结构进行存储的,根据文档等级配置表,对其编码 ID 进行补码后截断,根据不同等级方式进行存放,例如,按照 2 级树状结构进行存储,那么同一等级树节点中的文档数目是一样的,这样会做到文档存放均衡;也可以按照不同等级混合存放,那么文档可以局部均衡,在读取文档的时候,根据附件记录表中的编码 ID ,再次进行补码后截断,折算出文档树路径,准确定位到文档,可以直接提供给前台页面进行展示或下载,一步到位。

文档树状结构化目录管理原理:用户上传文档时在数据库文档表中产生一条记录,同时记录会自动产生一个数字型记录编码,根据系统设置好的目录树等级配置表的等级,对编码补码(补 0 )后,折算出母文件夹名称,子文件夹名称和文件名,这样就产生了文件的路径。

文档树状结构化目录分为均衡目录方式和混合存放方式,均衡存放表示所有文档是按照同一个等级存放的,例如文档编码是 123 ,根据配置表 2 级树定位为 8 位编码,补码后是 00000123 ,那么 8 ÷ 2=4 ,那么前四位( 0000 )为母文件夹,后四位( 0123 )为子文件夹和文件名,那么文件的上传路径就是 0000\0123\0123 ,根据路径上传文档即可,那么下载文档的原理和上传的原理是类似的。混合存放表示文档树状结构化目录可以按多个等级一起存储,文件上传流程图如下图 1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

1

 

根据上面的说明,下面举例说明如何上传文档,为了举例的方便,先定义这三个数据表如下:

 

首先在数据库中定义 3 个表(参阅附件 1 ),它们分别是 1 )目录树等级配置表( LevelConfig ),它的字段有:编码、目录树节点等级、目录树等级位数、有效性,表示定义文档目录树的等级,一般定义二级或三级树即可,多余三级就比较繁琐,那么还要定义好等级编码的位数,这个是非常重的配置,要根据不同的数据库去配置,有效性表示目前在用的等级; 2 )另一个是文档表( Doc ),也即是存放附件的记录表,字段有:编码、文档物理名称、扩展名、文档大小、是否压缩、目录树等级编码,在存放的时候,也可以让用户选择是否压缩,如果选择了压缩,那么将以压缩包的形式上传存放到服务器硬盘上; 3 )还有一个就是文档扩展名表( DocExt ),它的字段是:编码,名称,它表示文档格式的表。

目录树等级配置表 (LevelConfig)

(需要说明的是目录树等级位数我是按照 4 位晋级的,例如 2 × 4=8 ,这样每个母文件夹最多可以存放 10000 个文档)

 

编码

目录树节点等级

目录树等级位数

有效性

A

2

8

1

B

3

12

0

C

4

16

0

D

5

20

0

E

6

25

0

 

 

 

 

 

文档表 (Doc)

编码

文档物

理名称

文档

扩展名

文档

大小

是否

压缩

目录树

等级编码

 

 

 

 

 

123

文档 123

1

500

0

A

124

图片 124

2

300

0

A

 

 

 

 

 

9527

文档 9527

1

9000

1

A

 

 

 

 

 

 

均衡存放文档数据表

 

 

  

 

文档表 (Doc)

编码

文档物

理名称

文档

扩展名

文档

大小

是否

压缩

目录树

等级编码

 

 

 

 

 

123

文档 123

1

500

0

A

124

图片 124

2

300

0

B

 

 

 

 

 

9527

文档 9527

1

9000

1

A

 

 

 

 

 

 

文档扩展名表( DocExt

编码

名称

1

Doc

2

Jpg

3

Zip

4

Xls

5

Pdf

 

 

混合存放方式文档数据表

 

根据上面定义好的数据表,现按照 2 种方式举例说明如何进行文档的树状结构化目录管理。

1.        均衡存放方式:顾名思义就是文档中的各级文档数目都是相等的,那么在存储文档时就是所有的文档都是按照同一级别存放的,例如均是按 2 级或 3 级存放,我们知道每个附件中的文档在数据库中都有一条记录,并自动产生一个编码。

l  假如按照 2 级存放,根据前面配置表定义好的规则和前面说明的原理,那么在编码前补 0 码,组成 8 位的虚拟编码是 00000123 ,前四位 0000 为母文件夹,后四位 0123 为子文件夹,同时 0123 也是文档的名称,以此类推虚拟编码 00000124 ,前四位 0000 为母文件夹,后四位 0124 为子文件夹,所以 0123 0124 子文件夹都在 0000 母文件夹中,那么 0000 文件中可以存放 10 × 10 × 10 × 10=10000 个文档,从母文件夹 0000 推理到母文件夹 9999 中也可以存放 10000 个文件,总共可以存放 10000 × 10000=1 亿个文档,在读取文档时据文档记录的编码,前面补 0 码组成 8 位编码。例如:编码 123 ,组成 8 位编码既是 00000123 ,从中间截断后,文档下载的路径是 …\files\0000\0123\0123 ,这样就一步到位的定位到了文档,根据不同的技术( asp.net Java ruby )在下载文档时,可以把文档的物理文件名和扩展名进行组合提供给前端下载, 2 级目录树状结构图,如图 2 所示, 需要说明的是 Files 表示附件的跟文件夹,之所以把它命名为 2 级树,是因为 2 级是 8 位编码,每一级节点位数是 4 位,所以对它进行 8 ÷ 4=2 ,所以称之为 2 级目录树

 

 

 

               2

 

 

2.        混合存放方式,也就是多级混合存放,它比较灵活,具有如下一些优点: 1 )良好的扩展性,例如系统开始是 2 级目录树存放,经过一段运营后发现不够用,可以在采用三级存放,这样就形成了多级存放模式,但注意避免树层级太深; 2 )在前台界面让用户自由选择存放等级。

下面举例说明:

例如文档编码 123 是按 2 级存放,文档编码 124 是按 3 级存放,根据配置表, 2 级是 8 位编码,文档编码 123 虚拟编码是 00000123 3 级是 12 位编码 , 文档编码 124 虚拟编码是 000000000124 ,均按 4 位编码进行截码,那么文档树状结构目录图如图 3 所示:

 

 

 

 

                     2

 

 

分享到:
评论

相关推荐

    行政数据分析看板8.xlsx

    Excel数据看板,Excel办公模板,Excel模板下载,Excel数据统计,数据展示

    自动驾驶运动规划(Motion Planning).pdf

    自动驾驶运动规划(Motion Planning)问题分析

    跟我一起写makefile

    跟我一起写makefile的PDF,学习用。

    AI 技术落地有望强化客户运 营.pdf

    AI 技术落地有望强化客户运 营.pdf

    公司年会主持词模板.docx

    年会班会资料,节目策划,游戏策划,策划案,策划方案,活动方案,筹办,公司年会,开场白,主持人,策划主题,主持词,小游戏。

    weixin103基于h5移动网赚项目微信小程序+springboot后端毕业源码案例设计.zip

    提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

    labview大作业, 简单的OCR识别, 准确率有待提升.zip

    labview 与 C 和BASIC 一样,LabVIEW [2]也是通用的编程系统,有一个完成任何编程任务的庞大函数库。LabVIEW [3]的函数库包括数据采集、GPIB、串口控制、数据分析、数据显示及数据存储,等等。LabVIEW [3]也有传统的程序调试工具,如设置断点、以动画方式显示数据及其子程序(子VI)的结果、单步执行等等,便于程序的调试。 LabVIEW [2](Laboratory Virtual Instrument Engineering Workbench)是一种用图标代替文本行创建应用程序的图形化编程语言。传统文本编程语言根据语句和指令的先后顺序决定程序执行顺序,而 LabVIEW 则采用数据流编程方式,程序框图中节点之间的数据流向决定了VI及函数的执行顺序。VI指虚拟仪器,是 LabVIEW 的程序模块。 LabVIEW [2] 提供很多外观与传统仪器(如示波器、万用表)类似的控件,可用来方便地创建用户界面。用户界面在 LabVIEW 中被称为前面板。使用图标和连线,可以通过编程对前面板上的对象进行控制。这就是图形化源代码,又称G代码。

    【信号去噪】基于无迹卡尔曼滤波UKF实现信号去噪附matlab代码.zip

    1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    MATLAB有意思的项目.zip

    提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

    .

    提供的源码资源涵盖了安卓应用、小程序、Python应用和Java应用等多个领域,每个领域都包含了丰富的实例和项目。这些源码都是基于各自平台的最新技术和标准编写,确保了在对应环境下能够无缝运行。同时,源码中配备了详细的注释和文档,帮助用户快速理解代码结构和实现逻辑。 适用人群: 这些源码资源特别适合大学生群体。无论你是计算机相关专业的学生,还是对其他领域编程感兴趣的学生,这些资源都能为你提供宝贵的学习和实践机会。通过学习和运行这些源码,你可以掌握各平台开发的基础知识,提升编程能力和项目实战经验。 使用场景及目标: 在学习阶段,你可以利用这些源码资源进行课程实践、课外项目或毕业设计。通过分析和运行源码,你将深入了解各平台开发的技术细节和最佳实践,逐步培养起自己的项目开发和问题解决能力。此外,在求职或创业过程中,具备跨平台开发能力的大学生将更具竞争力。 其他说明: 为了确保源码资源的可运行性和易用性,特别注意了以下几点:首先,每份源码都提供了详细的运行环境和依赖说明,确保用户能够轻松搭建起开发环境;其次,源码中的注释和文档都非常完善,方便用户快速上手和理解代码;最后,我会定期更新这些源码资源,以适应各平台技术的最新发展和市场需求。

    基于Django框架的博客系统.zip

    基于Django框架的博客系统.zip

    年企业个人年度工作总结.docx

    工作总结,新年计划,岗位总结,工作汇报,个人总结,述职报告,范文下载,新年总结,新建计划。

    某块的m50固件 cpu7621 a

    某块的m50固件某块的m50固件某块的m50固件某块的m50固件

    Google Play商店.apk

    Google Play商店.apk

    重庆大学 2011-2012(2)数字电子技术II.pdf

    重庆大学期末考试试卷,重大期末考试试题,试题及答案

    电商运营年度工作总结.docx

    工作总结,新年计划,岗位总结,工作汇报,个人总结,述职报告,范文下载,新年总结,新建计划。

    ACM的概要介绍与分析

    ACM,即Association for Computing Machinery,是全球计算机领域最具影响力的专业学术组织。它为广大计算机从业者、研究人员和教育者提供了一个交流、分享和创新的平台。在ACM的资源库中,可以找到大量关于计算机科学、信息技术和软件工程等方面的权威文献、研究报告和最新技术动态。 ACM的资源涵盖了从基础理论知识到实际应用技术的广泛领域。无论你是初学者还是资深专家,都能在这里找到适合自己的学习资源。对于初学者来说,ACM提供了丰富的入门教程和在线课程,帮助他们快速掌握计算机科学的基本概念和编程技能。对于资深专家来说,ACM的专业期刊、会议录和研究成果则为他们提供了深入了解行业前沿、拓宽研究视野的宝贵资源。 此外,ACM还组织举办了一系列具有全球影响力的竞赛和活动,如国际大学生程序设计竞赛(ACM-ICPC)。这些竞赛不仅锻炼了参赛者的编程能力和团队协作能力,也为他们提供了一个展示自己才华的舞台。通过参与这些竞赛和活动,学生们能够更好地了解行业发展趋势,提升自己的综合素质。 总的来说,ACM的资源丰富多样,既适合初学者入门学习,也适合资深专家深入研究。通过充

    MSC 项目 USDE MATLAB,,.zip

    1.版本:matlab2014/2019a/2021a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    行政数据分析看板3.xlsx

    Excel数据看板,Excel办公模板,Excel模板下载,Excel数据统计,数据展示

    什么是打开注册表-以及学习打开注册表的意义

    打开注册表

Global site tag (gtag.js) - Google Analytics