广告位联系
返回顶部
分享到

SQL如何查重及去重的介绍

Mysql 来源:互联网 作者:秩名 发布时间:2022-03-11 13:54:11 人浏览
摘要

前言 在使用SQL提数的时候,常会遇到表内有重复值的时候,就需要做去重,本文归类了常用方法。 ?? 1.distinct 题目:现在运营需要查看用户来自于哪些学校,请从用户信息表中取出

前言

在使用SQL提数的时候,常会遇到表内有重复值的时候,就需要做去重,本文归类了常用方法。

?? 1.distinct

题目:现在运营需要查看用户来自于哪些学校,请从用户信息表中取出学校的去重数据

示例:user_profile

mysql>SELECT DISTINCT university FROM user_profile;
????????根据示例,查询返回以下结果

????????小贴士:

SQL中关键词distinct去重:
英语中distinct 代表独一无二的意思,
他在SQL表示去重的意思:比如本题中university这一列出现了两次北京大学,
使用distinct进行去重查询后,则北京大学只出现一次。
distinct 通常效率较低
distinct 使用中,放在 select 后边,对后面所有的字段的值统一进行去重

???????? 拓展:

题目:现在运营需要查看用户的总数
select count(distinct university) from user_profile;

?? 2.group by

???????? 举个栗子,现有这样一张表 task

备注:
task_id: 任务id;
order_id: 订单id;
start_time: 开始时间
注意:一个任务对应多条订单

题目:列出任务总数

????????????????根据示例,查询方法如下:

第1步:列出 task_id 的所有唯一值(去重后的记录,null也是值)

1

2

3

select task_id

from Task

group by task_id;

第二步: 任务总数

1

2

3

4

select count(task_id) task_num

from (select task_id

from Task

group by task_id) tmp;

?? 3.row_number 窗口函数

???????? 举个栗子,现有这样一张表 task

备注:
task_id: 任务id;
order_id: 订单id;
start_time: 开始时间
注意:一个任务对应多条订单

题目:查询整个表重复的数据

????????根据示例,查询方法如下:

– 在支持窗口函数的 sql 中使用

1

2

3

4

select count(case when rn=1 then task_id else null end) task_num

from (select task_id

, row_number() over (partition by task_id order by start_time) rn

from Task) tmp;

????????小贴士:

MySQL8.0 中可以利用 ROW_NUMBER(),DENSE_RANK(),RANK() 三个窗口函数来实现排序

需要注意的一点是 as 后的别名,千万不要与前面的函数名重名,否则会报错

下面给出这三种函数实现排名的案例:

–三条语句对于上面三种排名

1

2

3

select xuehao,score, ROW_NUMBER() OVER(order by score desc) as row_r from scores_tb;

select xuehao,score, DENSE_RANK() OVER(order by score desc) as dense_r from scores_tb;

select xuehao,score, RANK() over(order by score desc) as r from scores_tb;

– 一条语句也可以查询出不同排名

1

2

3

4

5

6

SELECT xuehao,score,

ROW_NUMBER() OVER w AS ‘row_r',

DENSE_RANK() OVER w AS ‘dense_r',

RANK() OVER w AS ‘r'

FROM scores_tb

WINDOW w AS (ORDER BY score desc);

?? 4.删除重复数据

创建测试数据

我们创建一个人员信息表并在里面插入一些重复的数据

1

2

3

4

5

6

7

CREATE TABLE Person(

id int auto_increment primary key comment ‘主键',

Name VARCHAR(20) NULL,

Age INT NULL,

Address VARCHAR(20) NULL,

Sex CHAR(2) NULL

);

1

2

3

4

5

6

7

8

9

10

INSERT INTO Person(ID,Name,Age,Address,Sex)

VALUES

( 1, ‘张三', 18, ‘北京路18号', ‘男' ),

( 2, ‘李四', 19, ‘北京路29号', ‘男' ),

( 3, ‘王五', 19, ‘南京路11号', ‘女' ),

( 4, ‘张三', 18, ‘北京路18号', ‘男' ),

( 5, ‘李四', 19, ‘北京路29号', ‘男' ),

( 6, ‘张三', 18, ‘北京路18号', ‘男' ),

( 7, ‘王五', 19, ‘南京路11号', ‘女' ),

( 8, ‘马六', 18, ‘南京路19号', ‘女' );

题目:数据库中存在重复记录,删除保留其中一条

我们发现除了自增长ID不同以为,有几条其他字段都重复的数据出现

???? 第一步:找出重复的数据

1

2

3

4

5

mysql>SELECT MAX(ID) ID,

Name,Age,Address,Sex

FROM Person

GROUP BY Name,Age,Address,Sex

HAVING COUNT(1)>1

????????小贴士:

HAVING将分组后统计出来的数量大于1的数据行,就是我们要找的重复数据

上面用Max函数或者Min函数均可,只是为了保证取出来的数据的唯一性。

???? 第二步:删除重复的数据

其实我们数据库中最后要保留的结果就是第二步中查询出来的数据,

我们把其他的数据删除即可。

怎么删除呢?我们使用ID来排除。

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

DELETE FROM Person

WHERE EXISTS

(

SELECT * FROM (

SELECT

MAX(ID) ID,

Name,Age,Address,Sex

FROM Person

GROUP BY Name,Age,Address,Sex

HAVING COUNT(1)>1) T

WHERE Person.Name=T.Name

AND Person.Age=T.Age

AND Person.Address=T.Address

AND Person.Sex=T.Sex

AND Person.ID<T.ID

)

执行完后重新查询Person表结果如下

马六因为只有一条记录,所以没有参与去重,直接显示。


版权声明 : 本文内容来源于互联网或用户自行发布贡献,该文观点仅代表原作者本人。本站仅提供信息存储空间服务和不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权, 违法违规的内容, 请发送邮件至2530232025#qq.cn(#换@)举报,一经查实,本站将立刻删除。
原文链接 : https://blog.csdn.net/weixin_41645135/article/details/123367447
相关文章
  • 深入了解MySQL中的慢查询
    一、什么是慢查询 什么是MySQL慢查询呢?其实就是查询的SQL语句耗费较长的时间。 具体耗费多久算慢查询呢?这其实因人而异,有些公司慢
  • MySQL中with rollup的用法及说明

    MySQL中with rollup的用法及说明
    MySQL with rollup的用法 当需要对数据库数据进行分类统计的时候,往往会用上groupby进行分组。 而在groupby后面还可以加入withcube和withrollup等关
  • mysql分组统计并求出百分比的方法

    mysql分组统计并求出百分比的方法
    mysql分组统计并求出百分比 1、mysql 分组统计并列出百分比 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 SELECT point_id, pname_cn, play_
  • 30种SQL语句优化的方法总结
    1)对查询进行优化,应尽量避免全表扫描,首先应考虑在 where 及 order by 涉及的列上建立索引。 2)应尽量避免在 where 子句中使用!=或操作符
  • 达梦数据库获取SQL实际执行计划的方法

    达梦数据库获取SQL实际执行计划的方法
    环境说明: 操作系统:银河麒麟V10 数据库:DM8 相关关键字:DM数据库、SQL实际执行计划 一、set autotrace trace disql下执行set autotrace trace开启
  • MySQL数据库约束的介绍

    MySQL数据库约束的介绍
    基本介绍 约束用于确保数据库的数据满足特定的商业规则 在mysql中,约束包括:not null,unique,primary key,foreign key 和check5种 1.primary key(主键
  • MySQL索引的介绍

    MySQL索引的介绍
    1. MySQL 索引的最左前缀原则 左前缀原则是联合索引在使用时要遵循的原则,查询索引可以使用联合索引的一部分,但是必须从最左侧开始。
  • windows下Mysql多实例部署的操作方法
    当存在多个项目的时候,需要同时部署时,且只有一台服务器时,哪么就需要部署Mysql多个实例,原理很简单,多个mysql服务运行使用不同的
  • MySQL客户端/服务器运行架构介绍

    MySQL客户端/服务器运行架构介绍
    之前对MySQL的认知只限于会写些SQL,本篇开始进行对MySQL进行深入的学习,记录和整理下自己对MySQL不熟悉的地方。如果有需要可以关注我的
  • mysql8.0主从复制搭建与配置方案

    mysql8.0主从复制搭建与配置方案
    mysql主从搭建 环境:ubuntu20.04.1,mysql:8.0.22。 主:192.168.87.3 备:192.168.87.6 安装数据库 1 2 3 sudo apt-get install mysql-server sudo apt-get install mysql
  • 本站所有内容来源于互联网或用户自行发布,本站仅提供信息存储空间服务,不拥有版权,不承担法律责任。如有侵犯您的权益,请您联系站长处理!
  • Copyright © 2017-2022 F11.CN All Rights Reserved. F11站长开发者网 版权所有 | 苏ICP备2022031554号-1 | 51LA统计