`

数据库三范式

 
阅读更多

第一范式:

第一范式为了排除每个字段有重复的组出现,要求每个字段只有一个值,而其每个记录都能用用一个唯一的主键来识别。

比如下面这个订单表

订单表

姓名                购买数量

A              10,20

B              15,15

C              100,40,30

购买数量段存在多个值,这就不符合第一范式的要求了,购买数量字段的值要求是单一的,不能够重复。

姓名   购买数量

A       10

A       20

B       15

B       15

C       100

C       40

C       30

但是这样还不符合第一范式的要求,第一范式还有每个记录都能用一个唯一的主键来识别。所以:

标识符ID   姓名   购买数量

1        A     10

2        A       20

3        B     15

4        B     15

5        C     100

6        C     40

7        C     30

  这样就符合了第一范式原则。

下面这个也是违法了第一范式的列子,虽然一个字段只有单一值,但用很多个字段来表达一个事实也是违反第一范式的:

用户的爱好表(爱好最多三个)

姓名   爱好1   爱好  爱好3

A     看电影  乒乓球   吃

B     篮球    看书    听歌

C     羽毛球  看电影   写代码

D     乒乓球          看电影

总结一下就是:所谓的第一范式,就是数据库表中的每一列都是不可分割的基本数据项,即所有字段都是原子级的,每一项记录要有一个唯一识别码。

我们要如何设计出符合第一范式的的原则的表:既然我们的每一个列要求不可再分,当我们设计过程中出现了每一列出现多值的情况下的时候,我们要定义一个新的实体,这个新的实体存储这些重复的属性。这样设计只有原实体和新实体之间就是一对多的关系了。

说明:第一个范式是关系型数据库的最基本的要求,不符合第一范式,就不是关系型数据库。

 

第二范式:

   有了第一范式也是不够的,比如这个表(学号,学生姓名、年龄、性别、课程、课程学分、系别、学科成绩,系办地址、系办电话),存在下面这种依赖关系:

   (学号)→ (姓名, 年龄,性别,系别,系办地址、系办电话) 

(课程名称) → (学分)          

   (学号,课程)→ (学科成绩) 

这样就会出现:

数据冗余:同一个课程有n个学生修,则学分会重复n-1次。同一个学生修了m门课程,则姓名和年龄会重复m-1次。

更新异常:如果想调整一门课的学分,那么要把所有的学分值进行更新。如果要加入一门新的课程,但是这门课还没人选,但是没有学号关键字,所以课程和学分无法录入表中。

删除异常:如果一批学生已经修完一门课程,这些选修的记录被删除之后,同时课程和学分的记录也被删除了。显然,这样会导致插入异常。

所以我们还需要第二范式。

第二范式要求,首先要符合第一范式,然后是所有数据都和主键有唯一的依赖关系,如果存在部分关系,那么这些数据要单独设计在另一个表中。

比如下面这个例子:

ID  商品ID  商品名称      价格      地区     数量总价

1  1       A      1000    杭州1        1000

2  2       B        600      深圳2        1200

3  3       C        800      上海1      800

4  4       D      1200    深圳2        2400

这里,比如商品id和id一起组合形成一个主键,而商品名称和地址只和商品id有依赖关系(部分依赖),这就不符合第二范式的原则了。

所以最好把这些数据存到另一个表中。

ID 商品名称              价格           地区

1   A                 1000           杭州

2   B                 600           深圳

3   C                 800           上海

4   D                 1200          深圳

然后原来的表就变成这样了。

ID 商品ID   数量   总价

1  1     1    1000

2  2     2    1200

3  3     1    800

4  4     2    2400

总结一下就是:首先要符合第一范式,然后是所有属性都和主键有完全的依赖关系,不存在只依赖一部分的情况。

符合第二范式的表我们如何设计呢?如果有部分依赖的情况,我们应当将这一部分分出来,用一个新的实体表示。然后新的实体和原来的实体是一对多的关系。

 

第三范式:

所有非键属性都之和候选键有相关性,也就是说,非键属性之间应该是无关的。简单的说,就是一个数据库的表中,不能包含在其它表中已经存在其他表中的非主键属性的关键字信息。

比如这个表:

Student(学号, 姓名, 年龄, 所在学院, 学院地点, 学院电话),关键字为单一关键字"学号",因为存在如下决定关系: 

(学号) → (姓名, 年龄, 所在学院, 学院地点, 学院电话) 

(学院)->(所在学院, 学院地点, 学院电话

那么这里就存在了(所在学院, 学院地点, 学院电话)对学号的传递依赖。

即第三范式不能存在(关键字段-》非关键字段x-》非关键字段x)这样的传递依赖。

这样的传递依赖也会存在数据冗余更新异常删除异常

这样我们的设计表的时候,要注意,如果出现这种情况,那么我们把那些传递依赖的属性弄一个新的表。这样可以有效地消除了冗余,不会出现更新异常,插入异常,删除异常等问题。

总结一下就是:非键属性之间应该是无关的,不能出现传递依赖。

 

关于第二范式、第三范式感觉好容易混淆。关键性的区别是:

第二范式,非主键属性要完全依赖于主键属性,不能只依赖主键的一部分。

第三范式,不能出现传递依赖,也就是说非主属性之间是没有关联的,传递依赖即非主键1依赖主键,非主键2依赖非主键1

还有第一范式就是,每一列都是原子的不可分割的属性,每一项记录要有一个唯一识别码

分享到:
评论

相关推荐

Global site tag (gtag.js) - Google Analytics