`
zrj_software
  • 浏览: 200682 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

SQL Server 大数据量数据存储设计思路分享

    博客分类:
  • C#
 
阅读更多

     论坛上总看到有人说某某数据库几百万的数据量怎么提高查询速度等等,最近正好做了一个关于这方面的表结构优化,分享给大家,希望对大家有帮助。本人也不是什么大牛,只希望互相交流学习。仅为分享,不喜勿喷,谢谢。

    言归正传,下面说一下具体的实现及效果。

    应用场景:

    一张日志表,记录每天150w左右的数据量,应用要求存储6个月以上,则共计27000w左右的数据规模,表从设计初期就考虑到数据增长会很快,所以采用的是日志表的形似记录的内容,前端应用不需和任何表关联,只需从这张表中读取数据即可。应用主要是根据不同的条件进行日志数据的检索和统计功能(时间条件,条件1,条件2),数据检索分页显示。


    原始处理方式,单表双TOP语句的方式。但是随着数据量的增长,检索速度越来越慢,老是出现查询超时的问题,同时由于双TOP方式分页的限制,导致页数越接近尾页越缓慢的现象。


    为了解决以上的问题,对原始数据表的结构进行了如下的调整。


 

数据库对于百万级别的数据量,响应速度还是很快的,但是对于上亿级别的数据量而言,由于存在着大量的磁盘IO,所以速度的降低不是线性的,而是呈现指数级的下降,所以,优化方法的中心思想就是减少结果集的数量,提高数据库本身的响应时间。

针对以上的想法,分4个步骤对数据库的存储结构及数据的选取方式进行以下的优化。

 

1.分而治之

对于几千万甚至亿级的数据,想在如此庞大的基础数据中做到快速响应的读取数据,比较可行的方法就是大而化小的思想。

大而化小的思想对于算法来说,怎样选取“小”这一概念的界定就很关键了,对于如此庞大的表,发现每天产生的数据量相对较稳定,基本维持在150w左右每天,这个数据量对于数据库来说是个可以快速进行响应的数据规模。而选择的太小,比如说按小时计算的方式,虽然单位的数据量减少了24倍,但是相对于数据量从150w6w的时间提升远比1张表到24张表的维护性提高付出的代价多,所以最后决定采用按日分表的方式进行分表,这样以3个月的数据来说,从13500w的一张大表转化为150w90张小表。这样可以改善最终结果的选取速度大大提升。

 

2.合而击之

经过以上的步骤,将大表划分为多个小表,虽然对于最终选取来说,只是从某一个小表中选取最终的数据,但是还是无法避免第一次进行所有涉及表的轮循计算行数的过程,这样与以前的方式相比数据量没有减少反而增加了算法的复杂度,所以单单分而治之的方法无法解决计算行数及页数的轮循产生的时间开销。

针对选取首页时的行数计算,可以反其道而行之,采用合而击之的方式,在数据初始化的时候进行以日为单位的选取条件统计,将统计结果分类存放于月表中,这样在选取时对于整日的区间只要直接从月表中读取响应日期的数据条目就可以了。

目前日志的查询条件有3组,分别是日期,条件1(固定),条件2(固定)。这样以日期为划分依据,就将检索条件由3组缩小为2组,减少了排列组合的数量,同时条件1和条件2的月表存储采用了“鸡兔同笼问题”的逆运算,通过选取条件确定某一类别的方式计算某一条件组合的信息条数。这样,实际的实验数据表明,可以讲150w的数据量缩小的4千左右的数据行数。对于表的数目来说每个月产生一张,代价很小。

CREATE TABLE monthtable

(

条件1,

        条件2,

        数量,

        日期

)

 

这样就有效地避免了在计算总行数时轮循所有日表的大量读取工作,节省了时间。

3.折半计算

以上的2部,可以解决大表,及轮循时耗费大量时间的问题,但是对于起始日期来说,如果是完整的一天可以直接从月表中读取数据,若不是完整的一天,则还是需要读取日表,虽然最多只需要读取两张日表,但是还是会浪费一些时间。

对于表的顺序选取来说,由于数据库本身的机制限制,所以无法避免的需要进行正逆两次数据的选取,所以现在可以做的就是减少首次选取的行数及减少排序操作的次数。

出于以上的目的,现将日表的数据选取方式修改为折半计算的方式。即选取行之前,先计算所选取的行是否超过表选取数据行数的一半,若未超过仍采用原始的数据选取方式,若超过,则通过倒序选取的方式从数据尾部提取数据,这样当选去的尾行<总行数一半时,选取时间与原是相同,当选取的尾行>总行数的一半时,由于少了一次排序,并且选取的行数也减少了,所以速度优于原始的选取方式,而且越接近数据尾部选取的速度越快,尾页的速度和首页相同,这要比原始的方式速度提升很多倍。

这样,扫描的结果集最大值仅为原始的一半,而且少了一次大结果集的排序过程,时间大大提高。

原始方式流程图:

折中计算流程图:

 

4.创建统计表

在数据库的数据选取过程中创中间统计表存储结果,用于存取在每个日表中选取的数据行数,只要传入的参数不是选择首页,那么数据库都直接从统计表中读取行数,这样就不用每一页都计算总行数,节省大量时间。

 

信息查询流程图:

优化前:

 

优化后:

以上数据选取过程封装在存储过程中统一进行。

 

统计优化测试数据:

数据量 14141687

单位(ms

测试计算机配置:

CPU:Inter(R)  Celeron(R) CPU 430 @ 1.80GHz 1.79GHz

Memory:2G (计算机存在其他服务,SQL Server 可利用的内存实际在1G左右)

每进行一次数据检索操作,均重启SQL Server服务。

优化前后数据库均已建立相关索引,索引在这里就不列出了。

由于数据库存在数据预热的阶段,所以平均值的计算方式为去掉最大值后计算的平均值,表中红色为去掉的测试时间。

 

统计属性

方案

统计列

数据1

数据2

数据3

数据4

数据5

平均

条件1

优化前

14141687

51724

33373

31803

30563

37223

33241

条件1

优化后

14141687

347

17

16

17

20

18

比例

 

1

150

1964

1988

1798

1862

1847

条件2

优化前

14141687

52340

35465

35760

37856

34970

36013

条件2

优化后

14141687

383

23

17

16

20

19

比例

 

1

137

1542

2104

2366

1749

1896

按日统计

优化前

14141687

57796

45356

45710

44520

45586

45293

按日统计

优化后

14141687

727

14

17

16

13

15

比例

 

1

80

3240

2689

2783

3507

3020

按月统计

优化前

14141687

55180

42130

42063

42780

42493

42367

按月统计

优化后

14141687

380

10

7

13

7

9

比例

 

1

145

4213

6009

3291

6070

4708

 

存储空间占用统计:

数据量14141687

单位(KB

数据日期区间2011-11-25 ~ 2011-12-29

统计属性

占用空间

数据空间

索引空间

表数量

优化前

2150480

1593688

557792

1

优化后

2057688

1521752

535936

19

比例

0.9569

0.9549

0.9608

19

 

信息查询优化测试数据:

 

数据量 14141687

单位(ms

每页行数:50

 

由于数据库存在数据预热的阶段,所以平均值的计算方式为去掉最大值后计算的平均值,表中红色为去掉的测试时间。

 

条件属性为:

1.统计时间:2011-11-16 0:00:00 ~ 2011-12-30 0:00:00

2.条件1:xxxx

3.条件2:xxxx

 

 

 

测试1:以时间为筛选条件

方案

选取页

统计列

数据1

数据2

数据3

数据4

数据5

平均

优化前

首页

14141687

89426

64220

61466

62850

54046

60646

优化后

首页

14141687

1253

113

234

167

200

179

比例

 

1

71

568

263

376

270

339

优化前

2

14141687

34420

6423

6480

6350

6433

6422

优化后

2

14141687

416

16

14

20

13

16

比例

 

1

83

401

483

318

495

401

优化前

3

14141687

34020

5546

6446

6543

6486

6255

优化后

3

14141687

537

13

17

20

14

16

比例

 

1

63

427

379

327

463

391

优化前

141417

14141687

36640

9853

9833

10833

11160

10420

优化后

141417

14141687

2213

504

653

720

517

599

比例

 

1

17

20

15

15

22

18

优化前

尾页

14141687

37546

11443

11456

11290

11366

11389

优化后

尾页

14141687

590

23

17

17

17

19

比例

 

1

64

498

674

664

669

599

 

 

测试2:以时间和条件1为筛选条件

方案

选取页

统计列

数据1

数据2

数据3

数据4

数据5

平均

优化前

首页

66355

79003

42870

40183

49413

42683

43787

优化后

首页

66355

1136

226

163

203

104

174

比例

 

1

70

190

247

243

411

252

优化前

2

66355

34773

12690

12686

13026

12726

12782

优化后

2

66355

916

40

30

30

30

33

比例

 

1

38

317

423

434

424

387

优化前

3

66355

35746

12986

14296

12816

13880

13495

优化后

3

66355

820

33

37

40

40

38

比例

 

1

44

394

386

320

347

355

优化前

664

66355

41143

17736

17763

18763

17743

18001

优化后

664

66355

997

37

40

38

35

37

比例

 

1

41

479

444

494

507

487

优化前

尾页

66355

42463

18916

20100

20156

20093

19816

优化后

尾页

66355

1117

96

97

100

99

98

比例

 

1

38

197

207

202

203

202

 

测试3:以时间和条件2为筛选条件

方案

选取页

统计列

数据1

数据2

数据3

数据4

数据5

平均

优化前

首页

4829945

84673

60546

60303

58516

58556

59480

优化后

首页

4829945

2033

193

184

220

160

189

比例

 

1

42

314

328

266

366

315

优化前

2

4829945

39156

15083

15526

15193

15210

15253

优化后

2

4829945

713

23

27

30

23

26

比例

 

1

55

656

575

506

662

587

优化前

3

4829945

36806

15053

15353

16230

15333

15493

优化后

3

4829945

727

20

20

24

17

20

比例

 

1

51

753

768

676

902

775

优化前

48283

4829945

44203

23950

24126

23386

23293

23689

优化后

48283

4829945

1314

507

500

510

503

505

比例

 

1

34

47

48

46

46

47

优化前

尾页

4829945

46203

24390

25596

25400

24333

24930

优化后

尾页

4829945

2012

1087

987

963

1000

1009

比例

 

1

23

22

26

27

24

25

 

 

 

 

 

 

 

 

测试4:以时间和条件1、条件2为筛选条件

方案

选取页

统计列

数据1

数据2

数据3

数据4

数据5

平均

优化前

首页

66353

78130

30340

28080

28210

27090

28430

优化后

首页

66353

1330

120

130

90

107

112

比例

 

1

59

253

216

314

254

254

优化前

2

66353

35150

12660

12553

12736

13250

12780

优化后

2

66353

848

20

23

20

20

21

比例

 

1

42

633

546

637

663

609

优化前

3

66353

34933

12996

12916

14226

12843

13246

优化后

3

66353

833

27

25

22

29

26

比例

 

1

42

482

517

647

443

510

优化前

664

66353

73570

27630

27096

26276

26053

26734

优化后

664

66353

1305

190

189

210

209

200

比例

 

1

57

146

144

126

125

134

优化前

尾页

66353

70176

32090

31000

32010

32110

31803

优化后

尾页

66353

1076

183

187

182

181

184

比例

 

1

66

176

166

176

178

173

 


 

测试结果分析:

从统计功能来看,数据库的响应速度提升很大,从30秒左右提升到20毫秒左右,速度最大提升了4700多倍,效果明显。

从查询功能来看,数据库的响应速度提升没有统计功能明显,但是也从30多秒提高到200毫秒左右,提升了约400-500倍左右。

原因分析:统计功能利用本算法可以完全避免对于原始数据表的读取操作,所以对于该功能来说,只是操作几张4-5千条数据的表,所以响应时间快,但是对于查询功能来说,最终返回给用户的信息是具体的消息,所以无法避免的要对数据表进行查找,所以时间上消耗的多了些。但是基本上也都控制在200毫秒以下就可以做出响应。

 

代价:

本机制采用的是复杂度换时间的方法,即数据库结构和选取方式的复杂度增加了,从而减少了在选取时消耗的时间,并且有一部分统计工作提到了选取操作以外进行,将时间分块,从而在感觉上降低了响应时间。

对于,日表及月表的数据填充工作可以使用数据库的作业,在业务不繁忙的时间进行原始表的划分工作。

对于测试数据来说,14百万的数据初始化需要十分钟左右的时间进行,可以选择凌晨1点开始,这样最长1-2个小时就可以把数据处理完毕。并且大量表的初始化只在第一次更换数据库结构时产生,以后每天进行的数据统计工作基本上只有200w左右,这个数量级只需要几分钟就可以完成,完全不影响软件每天的正常使用。

                                              --转至:magician547的专栏

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics