当前位置:   article > 正文

MYSQL 查找单个字段或者多个字段重复数据,清除重复数据,保留一条_mysql查询重复数据保留一条

mysql查询重复数据保留一条

前文

重复数据的情况分为两种:

单个字段 数据重复

多个字段 数据重复

所以该篇的内容就是包括

单个字段的重复数据查找 与 去重

多个字段的重复数据查找 与 去重

正文

示例 accountinfo 表数据如下:

场景一 单个字段重复数据查找 & 去重

我们要把上面这个表中 单个字段 account字段相同的数据找出来。

思路 分三步 简述:

第一步

要找出重复数据,我们首先想到的就是,既然是重复,那么 数量就是大于 1 就算是重复。 那就是 count 函数 。

因为我们要排查的是 单个 字段account ,那么就是需要按照 account 字段 维度 去分组。 那就是 group by 函数。

那么我们第一步写出来的mysql 语句是:

SELECT account ,COUNT(account) as count FROM accountinfo GROUP BY account;

查询结果如下:

第二步

没错,如我们所想,count大于1的即是 account为 A 和 B 的数据。

那么我们稍作筛选,只把count大于1的数据的account 找出来。

第二步,利用having 拼接筛选条件,写出来的mysql 语句是:

SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1;

查询结果如下:

第三步

重复的account数据 A B 都找出来了,接下来我们只需要把account为A 和 B 的其他数据都一起查询出来。

那就是利用第二步查出来的数据做为子查询条件,使用 IN 函数。

第三步写出来的mysql 语句是:

  1. SELECT * FROM accountinfo WHERE account IN
  2. (
  3. SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
  4. );

查询结果如下:

可以看到重复的数据都被我们筛选出来了。

那么怎么去重呢? 也就是说,把重复的数据删掉。

不,准确点应该说是,重复的数据都只留下一条即可,这才是去重。

紧接着上面,毕竟去重的前提肯定是找重,上面我们已经实现找重了,所以紧接着进行去重。

按照我们步骤三得到的图,就是我们需要删掉一条account为A的数据, 一条account为B的数据,去重结果图应该如下:

思路也分三步简述:

第一步

删掉数据,我们一般选择接住主键来删除,所以我们考虑从id入手。

再来看我们的重复数据:

如果我们想在这些重复数据里面,每个都保留一条,如 account 为 A 中 id=10 的数据, account 为B 中 id=20 的数据 ,那么第一步我们就得把这两条数据从上面的

最终得到的数据 筛选出来,也就是按照 account分组,保留里面id最小的数据。使用 group by 和 min 函数。

所以去重我们第一步写出来的mysql 语句是:

  1. SELECT min(id) as id from (
  2. SELECT * FROM accountinfo WHERE account IN
  3. (
  4. SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
  5. )
  6. ) a GROUP BY a.account

查询结果如下:

第二步

想要保留的数据已经找出来了,那么接下来就是从所有的重复数据里面 删掉 不为 我们保留的数据 即可 。

那么就是找出我们需要删除的id, 使用 not in 函数。

所以去重我们第二步写出来的mysql 语句是:

  1. SELECT t1.id FROM (
  2. SELECT id FROM accountinfo WHERE account IN ( SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1) ) t1
  3. WHERE t1.id NOT IN (
  4. SELECT min(id) AS id FROM (
  5. SELECT * FROM accountinfo WHERE account IN
  6. (
  7. SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
  8. )
  9. ) a GROUP BY a.account
  10. )

查询的结果为:

对这个sql语句稍作文字说明:

第三步,删掉第二步找出来的数据即可,根据id删除。

所以第三步写出来的mysql语句是:

  1. DELETE FROM accountinfo WHERE id IN (
  2. SELECT t1.id FROM (
  3. SELECT id FROM accountinfo WHERE account IN ( SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1) ) t1
  4. WHERE t1.id NOT IN (
  5. SELECT min(id) AS id FROM (
  6. SELECT * FROM accountinfo WHERE account IN
  7. (
  8. SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
  9. )
  10. ) a GROUP BY a.account
  11. )
  12. )

执行结果如下图:

场景二 多个字段重复数据查找 & 去重

示例 accountinfo 表数据如下:

想要去重,我们的首要想到的也是先把 重复数据 找出来。

现在的重复定义是, account 和 deviceId 都相同的 时候,这种数据就是重复数据(也就是上图绿色框出来的就是同时多个字段都存在重复的数据)。

思路简述:

第一步

因为有了文章上半部讲到的单个字段重复的数据查找思路,所以到这边应该更好理解了。

同样, account 和 deviceId 都相同的重复数据就是指, 这种数据存在的数量 大于 2,那么就是存在重复了。

我们还是使用到了 group by 函数 和 count 函数 和 having and 函数(因为需要同时满足两个字段条件,使用and)。

第一步写出来的mysql语句是:

  1. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  2. FROM accountinfo
  3. GROUP BY account, deviceId
  4. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)

查询出来的结果如下图:

第二步

一样 也是把第一步里的到的关键信息 account 和 deviceId做为子查询条件,从原表里把 account 和 deviceId 同时相同的数据都查找出来。

第二步写出来的mysql语句是:

  1. SELECT t.* FROM accountinfo t, (
  2. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  3. FROM accountinfo
  4. GROUP BY account, deviceId
  5. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)
  6. ) a
  7. WHERE t.account=a.account AND t.deviceId=a.deviceId

查询结果如下图:

可以看到重复的数据都被我们筛选出来了,这些数据里面就是包含 account 和 deviceId 同时都相同的数据!

去重

第一步

思路一样,我们对于重复的数据每个只保留一条,那就是把这些涉及重复的数据每个都找出一条,也是根据id入手。

也就是在account为 C 且 deviceId 为 C333 三条重复数据里面,保留 id最小的 等于30 这一条;

account为D 且 deviceId 为 D444 二条重复数据里面,保留 id最小的 等于40 这一条.

所以第一步我们先写出来的mysql语句为:

  1. SELECT min(id) as id FROM (
  2. SELECT t.* FROM accountinfo t, (
  3. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  4. FROM accountinfo
  5. GROUP BY account, deviceId
  6. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)
  7. ) a
  8. WHERE t.account=a.account AND t.deviceId=a.deviceId
  9. )a GROUP BY a.account,a.deviceId

查询结果如下图:

第二步

就是从涉及重复数据里面,找出除了我们需要保留的id之外的那批id, 那就是需要我们执行删除的数据id。

所以第二步我们先写出来的mysql语句为:

  1. SELECT t.* FROM accountinfo t, (
  2. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  3. FROM accountinfo
  4. GROUP BY account, deviceId
  5. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)
  6. ) a
  7. WHERE t.account=a.account AND t.deviceId=a.deviceId
  8. ) b WHERE b.id
  9. NOT IN (
  10. SELECT min(id) as id FROM (
  11. SELECT t.* FROM accountinfo t, (
  12. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  13. FROM accountinfo
  14. GROUP BY account, deviceId
  15. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)
  16. ) a
  17. WHERE t.account=a.account AND t.deviceId=a.deviceId
  18. )a GROUP BY a.account,a.deviceId
  19. )

查询出来的结果为:

那么最后删掉这些id的数据即可:

  1. DELETE FROM accountinfo WHERE id in (
  2. SELECT b.id FROM (
  3. SELECT t.* FROM accountinfo t, (
  4. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  5. FROM accountinfo
  6. GROUP BY account, deviceId
  7. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)
  8. ) a
  9. WHERE t.account=a.account AND t.deviceId=a.deviceId
  10. ) b WHERE b.id
  11. NOT IN (
  12. SELECT min(id) as id FROM (
  13. SELECT t.* FROM accountinfo t, (
  14. SELECT account, COUNT(account), deviceId, COUNT(deviceId)
  15. FROM accountinfo
  16. GROUP BY account, deviceId
  17. HAVING (COUNT(account) > 1) AND (COUNT(deviceId) > 1)
  18. ) a
  19. WHERE t.account=a.account AND t.deviceId=a.deviceId
  20. )a GROUP BY a.account,a.deviceId
  21. )
  22. )

去重后结果为:

声明:本文内容由网友自发贡献,不代表【wpsshop博客】立场,版权归原作者所有,本站不承担相应法律责任。如您发现有侵权的内容,请联系我们。转载请注明出处:https://www.wpsshop.cn/w/酷酷是懒虫/article/detail/741727
推荐阅读
相关标签
  

闽ICP备14008679号