SQL查询重复数据和清除重复数据

king_wangyao

浏览: 231798 次
性别:
来自: 上海

最近访客更多访客>>

ssuubb2711

doubusha

songofhawk

流小柒

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Microsoft SQL Server

SQL 数据结构 SQL Server 面试 SUN

ps:今天去面试被这个问题考倒了，sql要恶补一下了。
选择重复，消除重复和选择出序列

有例表：emp
emp_no   name    age
    001           Tom      17
    002           Sun      14
    003           Tom      15
    004           Tom      16

要求：
列出所有名字重复的人的记录
(1)最直观的思路：要知道所有名字有重复人资料，首先必须知道哪个名字重复了：
select name from emp group by name having count(*)>1

所有名字重复人的记录是:
select * from emp
where name in (select name from emp group by name having count(*)>1)

(2)稍微再聪明一点，就会想到，如果对每个名字都和原表进行比较，大于2个人名字与这条记录相同的就是合格的，就有
select * from emp where (select count(*) from emp e where e.name=emp.name) >1
--注意一下这个>1，想下如果是 =1，如果是 =2 如果是>2 如果 e 是另外一张表而且是=0那结果就更好玩了:)
这个过程是在判断工号为001的人的时候先取得 001的名字（emp.name）然后和原表的名字进行比较 e.name
注意e是emp的一个别名。

再稍微想得多一点，就会想到，如果有另外一个名字相同的人工号不与她他相同那么这条记录符合要求：
select   *   from   emp
    where   exists
                  (select   *   from   emp   e    where   e.name=emp.name   and   e.emp_no<>emp.emp_no)

此思路的join写法：
select emp.* from emp,emp e
where emp.name=e.name and emp.emp_no<>e.emp_no

/*     这个语句较规范的   join   写法是
select emp.* from   emp   inner join emp   e     on emp.name=e.name and emp.emp_no<>e.emp_no
但个人比较倾向于前一种写法，关键是更清晰     */
b、有例表：emp
name     age
Tom       16
Sun        14
Tom       16
Tom       16

----------------------------------------------------清除重复----------------------------------------------------
过滤掉所有多余的重复记录
(1)我们知道distinct、group by 可以过滤重复，于是就有最直观的

select distinct * from emp 或 select name,age from emp group by name,age
获得需要的数据，如果可以使用临时表就有解法：

select   distinct   *   into   #tmp    from   emp
    delete   from   emp
    insert   into   emp   select   *   from   #tmp

(2)但是如果不可以使用临时表，那该怎么办？
我们观察到我们没办法区分数据（物理位置不一样，对 SQL Server来说没有任何区别），思路自然是想办法把数据区分出来了，既然现在的所有的列都没办法区分数据，唯一的办法就是再加个列让它区分出来，加什么列好？最佳选择是identity列：

alter table emp add chk int identity(1,1)
表示例：

name   age   chk
    Tom     16     1
    Sun      14     2
    Tom     16     3
    Tom     16     4
重复记录可以表示为：

select * from emp where (select count(*) from emp e where e.name=emp.name)>1
要删除的是：

delete from emp
where (select count(*) from emp e where e.name=emp.name and e.chk>=emp.chk)>1

再把添加的列删掉，出现结果。

alter table emp drop column chk

(3)另一个思路：
视图
select   min(chk) from   emp group   by   name having   count(*)   >1
获得有重复的记录chk最小的值,于是可以

delete from   emp where chk   not   in (select min(chk) from   emp group   by   name)
写成join的形式也可以:

(1)有例表：emp

emp_no    name    age
001            Tom      17
002            Sun       14
003            Tom      15
004            Tom      16
◆要求生成序列号
(1)最简单的方法，根据b问题的解法：

alter   table   emp   add   chk   int   identity(1,1)   或
    select   *,identity(int,1,1)   chk   into   #tmp   from   emp
◆如果需要控制顺序怎么办？

select   top   100000   *,identity(int,1,1)   chk   into   #tmp   from   emp   order   by   age
(2) 假如不可以更改表结构，怎么办？
如果不可以唯一区分每条记录是没有办法的，在可以唯一区分每条记录的时候,可以使用a 中的count的思路解决这个问题

select   emp.*,(select   count(*)   from   emp   e   where   e.emp_no<=emp.emp_no)
    from   emp
    order   by   (select   count(*)   from   emp   e   where   e.emp_no<=emp.emp_no)

分享到：

97编程大赛第一名的神奇程序 | SQL查询重复记录

2011-05-18 09:40
浏览 1863
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论