当前位置: 首页 > news >正文

MYSQL 查找单个字段或者多个字段重复数据,清除重复数据

前文

 

重复数据的情况分为两种:  

单个字段 数据重复  

多个字段 数据重复

所以该篇的内容就是包括


单个字段的重复数据查找  与 去重
多个字段的重复数据查找  与 去重 

 

 

正文

 

示例  accountinfo 表数据如下:

 

场景一   单个字段重复数据查找 & 去重

我们要把上面这个表中 单个字段 account字段相同的数据找出来。

思路 分三步 简述:

 

第一步

要找出重复数据,我们首先想到的就是,既然是重复,那么 数量就是大于 1  就算是重复。 那就是 count 函数 。

因为我们要排查的是 单个 字段account ,那么就是需要按照 account 字段 维度 去分组。  那就是 group by 函数。

 

那么我们第一步写出来的mysql 语句是:
 

 SELECT account ,COUNT(account) as count FROM accountinfo GROUP BY account;

查询结果如下:

第二步 

没错,如我们所想,count大于1的即是 account为 A  和 B 的数据。

那么我们稍作筛选,只把count大于1的数据的account  找出来。

 第二步,利用having 拼接筛选条件,写出来的mysql 语句是:

 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1;

查询结果如下:

 第三步

重复的account数据 A B 都找出来了,接下来我们只需要把account为A 和 B 的其他数据都一起查询出来。

那就是利用第二步查出来的数据做为子查询条件,使用 IN 函数。

第三步写出来的mysql 语句是:

 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 );

查询结果如下:

可以看到重复的数据都被我们筛选出来了。

 

那么怎么去重呢? 也就是说,把重复的数据删掉。

不,准确点应该说是,重复的数据都只留下一条即可,这才是去重。

紧接着上面,毕竟去重的前提肯定是找重,上面我们已经实现找重了,所以紧接着进行去重。

按照我们步骤三得到的图,就是我们需要删掉一条account为A的数据, 一条account为B的数据,去重结果图应该如下:

 

思路也分三步简述:

第一步

删掉数据,我们一般选择接住主键来删除,所以我们考虑从id入手。

再来看我们的重复数据:

 

如果我们想在这些重复数据里面,每个都保留一条,如 account 为 A 中 id=10 的数据,  account 为B 中 id=20 的数据 ,那么第一步我们就得把这两条数据从上面的

最终得到的数据 筛选出来,也就是按照 account分组,保留里面id最小的数据。使用 group by min 函数。

所以去重我们第一步写出来的mysql 语句是:

SELECT min(id) as id from (


 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 ) 
 
 
 ) a GROUP BY a.account

查询结果如下:

 

第二步

想要保留的数据已经找出来了,那么接下来就是从所有的重复数据里面 删掉 不为 我们保留的数据 即可 。
那么就是找出我们需要删除的id, 使用 not in 函数。

所以去重我们第二步写出来的mysql 语句是:

SELECT t1.id FROM (

SELECT id  FROM accountinfo WHERE account IN (  SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1) ) t1 

WHERE t1.id NOT IN (


SELECT min(id) AS id FROM (


 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 ) 
 
 
 ) a GROUP BY a.account

)

查询的结果为:

对这个sql语句稍作文字说明:

第三步,删掉第二步找出来的数据即可,根据id删除。

所以第三步写出来的mysql语句是:
 

DELETE FROM accountinfo WHERE id IN (

SELECT t1.id FROM (

SELECT id  FROM accountinfo WHERE account IN (  SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1) ) t1 

WHERE t1.id NOT IN (


SELECT min(id) AS id FROM (


 SELECT * FROM  accountinfo WHERE account IN
 (
 SELECT account FROM accountinfo GROUP BY account HAVING COUNT(account) > 1
 ) 
 
 
 ) a GROUP BY a.account

)

)

 

执行结果如下图:

 

场景二  多个字段重复数据查找 & 去重

 

 示例  accountinfo 表数据如下:

 

 想要去重,我们的首要想到的也是先把 重复数据 找出来。

现在的重复定义是, account 和 deviceId 都相同的 时候,这种数据就是重复数据(也就是上图绿色框出来的就是同时多个字段都存在重复的数据)。

思路简述:

第一步

因为有了文章上半部讲到的单个字段重复的数据查找思路,所以到这边应该更好理解了。

同样, account 和 deviceId 都相同的重复数据就是指, 这种数据存在的数量 大于 2,那么就是存在重复了。

我们还是使用到了 group by  函数 和 count 函数 和 having and  函数(因为需要同时满足两个字段条件,使用and)。

第一步写出来的mysql语句是:

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 

查询出来的结果如下图:

第二步

一样 也是把第一步里的到的关键信息 account 和 deviceId做为子查询条件,从原表里把  account 和 deviceId 同时相同的数据都查找出来。

第二步写出来的mysql语句是:

 

SELECT t.* FROM  accountinfo t, (

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 

WHERE t.account=a.account AND t.deviceId=a.deviceId 

 

查询结果如下图:

 

可以看到重复的数据都被我们筛选出来了,这些数据里面就是包含 account 和 deviceId 同时都相同的数据!

 

去重

第一步

思路一样,我们对于重复的数据每个只保留一条,那就是把这些涉及重复的数据每个都找出一条,也是根据id入手。

也就是在account为 C 且 deviceId 为 C333  三条重复数据里面,保留 id最小的 等于30 这一条;

account为D 且 deviceId 为 D444  二条重复数据里面,保留 id最小的 等于40 这一条.

 

所以第一步我们先写出来的mysql语句为:
 

SELECT min(id) as id FROM (

SELECT t.* FROM  accountinfo t, (

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 

WHERE t.account=a.account AND t.deviceId=a.deviceId 

)a  GROUP BY a.account,a.deviceId

查询结果如下图:

 

 

第二步

就是从涉及重复数据里面,找出除了我们需要保留的id之外的那批id, 那就是需要我们执行删除的数据id。

所以第二步我们先写出来的mysql语句为:

SELECT t.* FROM  accountinfo t, (

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 

WHERE t.account=a.account AND t.deviceId=a.deviceId 

) b   WHERE b.id

NOT IN (


SELECT min(id) as id FROM (

SELECT t.* FROM  accountinfo t, (

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 

WHERE t.account=a.account AND t.deviceId=a.deviceId 

)a  GROUP BY a.account,a.deviceId

)

查询出来的结果为:
 

那么最后删掉这些id的数据即可:

DELETE FROM accountinfo WHERE id in (

SELECT b.id  FROM  (  

SELECT t.* FROM accountinfo  t, (

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 

WHERE t.account=a.account AND t.deviceId=a.deviceId 

) b   WHERE b.id

NOT IN (


SELECT min(id) as id FROM (

SELECT t.* FROM  accountinfo t, (

SELECT account, COUNT(account), deviceId, COUNT(deviceId) 
FROM accountinfo 
GROUP BY account, deviceId 
HAVING  (COUNT(account) > 1) AND  (COUNT(deviceId) > 1) 
) a 

WHERE t.account=a.account AND t.deviceId=a.deviceId 

)a  GROUP BY a.account,a.deviceId

)

)

去重后结果为:

 

 

该篇就到此吧。

 

 

相关文章:

  • 先了解清楚 脏读、不可重复读、幻读,再谈事务隔离机制
  • ActiveMQ 启动报错 Address already in use: JVM_Bind 5672
  • ActiveMQ 无法注入 jmsMessagingTemplate
  • ActiveMQ 报错 Could not connect to xxxxxxx , hostname can‘t be null
  • Springboot ActiveMQ 消息重发延迟时间 坑记
  • Springboot 整合 spring batch 实现批处理 ,小白文实例讲解
  • Springboot 使用Jackson 操作 json数据,各场景实例
  • Springboot 整合Websocket+Stomp协议+RabbitMQ做消息代理 实例教程
  • Java 将List<String> 转为以逗号 ‘,’ 拼接的字符串
  • Java 基于原生HttpURLConnection ,调用GET 和 POST请求 工具类
  • Java 识别请求来自移动端还是电脑端
  • MySql 别犯糊涂了! LEFT JOIN 的 ON 后接上筛选条件,多个条件会出事!
  • 微服务 分布式事务解决方案
  • MySql 索引失效、回表解析
  • Springboot 超简单实现在线预览,Word文档 doc、xlsx、pdf、txt等
  • [译]Python中的类属性与实例属性的区别
  • 【笔记】你不知道的JS读书笔记——Promise
  • Angular6错误 Service: No provider for Renderer2
  • C学习-枚举(九)
  • laravel with 查询列表限制条数
  • Linux快速配置 VIM 实现语法高亮 补全 缩进等功能
  • macOS 中 shell 创建文件夹及文件并 VS Code 打开
  • Python学习笔记 字符串拼接
  • Web Storage相关
  • 服务器之间,相同帐号,实现免密钥登录
  • 关于使用markdown的方法(引自CSDN教程)
  • 什么软件可以提取视频中的音频制作成手机铃声
  • 系统认识JavaScript正则表达式
  • 消息队列系列二(IOT中消息队列的应用)
  • ​ssh免密码登录设置及问题总结
  • (07)Hive——窗口函数详解
  • (9)STL算法之逆转旋转
  • (done) ROC曲线 和 AUC值 分别是什么?
  • (第一天)包装对象、作用域、创建对象
  • (附源码)spring boot网络空间安全实验教学示范中心网站 毕业设计 111454
  • (三分钟了解debug)SLAM研究方向-Debug总结
  • (十一)JAVA springboot ssm b2b2c多用户商城系统源码:服务网关Zuul高级篇
  • (转)jdk与jre的区别
  • .net反编译的九款神器
  • .NET分布式缓存Memcached从入门到实战
  • .NET连接MongoDB数据库实例教程
  • .NET序列化 serializable,反序列化
  • .skip() 和 .only() 的使用
  • /var/spool/postfix/maildrop 下有大量文件
  • ??如何把JavaScript脚本中的参数传到java代码段中
  • @Autowired @Resource @Qualifier的区别
  • @DataRedisTest测试redis从未如此丝滑
  • @SuppressWarnings注解
  • @Valid和@NotNull字段校验使用
  • [ Algorithm ] N次方算法 N Square 动态规划解决
  • [04]Web前端进阶—JS伪数组
  • [20190416]完善shared latch测试脚本2.txt
  • [BZOJ1053][HAOI2007]反素数ant
  • [C++]类和对象【上篇】
  • [CareerCup] 12.3 Test Move Method in a Chess Game 测试象棋游戏中的移动方法