Postgresql删除数据库表中重复数据的几种方法_F11 - 专业站长和开发者的学习网站

分享到

Postgresql删除数据库表中重复数据的几种方法

PostgreSQL 来源：互联网作者：佚名发布时间：2022-10-05 20:52:46 人浏览

摘要

一直使用Postgresql数据库，有一张表是这样的： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 DROP TABLE IF EXISTS public.devicedata; CREATE TABLE public.devicedata ( Id varchar(200) COLLATE pg_catalog.default NOT NULL, DeviceId varchar(20

一直使用Postgresql数据库，有一张表是这样的：

DROP TABLE IF EXISTS "public"."devicedata";

CREATE TABLE "public"."devicedata" (

"Id" varchar(200) COLLATE "pg_catalog"."default" NOT NULL,

"DeviceId" varchar(200) COLLATE "pg_catalog"."default",

"Timestamp" int8,

"DataArray" float4[]

)

CREATE INDEX "timeIndex" ON "public"."devicedata" USING btree (

"Timestamp" "pg_catalog"."int8_ops" DESC NULLS LAST,

"DeviceId" COLLATE "pg_catalog"."default" "pg_catalog"."text_ops" ASC NULLS LAST

);

ALTER TABLE "public"."devicedata" ADD CONSTRAINT "devicedata_pkey" PRIMARY KEY ("Id");

主键为Id，是通过程序生成的GUID，随着数据表的越来越大（70w），即便我建立了索引，查询效率依然不乐观。

使用GUID作为数据库的主键对分布式应用比较友好，但是不利于数据的插入，可以使用类似ABP的方法生成连续的GUID解决这个问题。

为了进行优化，计划使用DeviceId与Timestamp作为主键，由于主键会自动建立索引，使用这两个字段查询的时候，查询效率可以有很大的提升。不过，由于数据库的插入了很多的重复数据，直接切换主键不可行，需要先剔除重复数据。

使用group by

数据量小的时候适用。对于我这个70w的数据，查询运行了半个多小时也无法完成。

DELETE FROM "DeviceData"

WHERE "Id"

NOT IN (

SELECT max("Id")

FROM "DeviceData_temp"

GROUP BY "DeviceId", "Timestamp"

);

使用DISTINCT

建立一张新表然后插入数据，或者使用select into语句。

SELECT DISTINCT "Timestamp", "DeviceId"

INTO "DeviceData_temp"

FROM "DeviceData";

-- 删除原表

DROP TABLE "DeviceData";

-- 将新表重命名

ALTER TABLE "DeviceData_temp" RENAME TO "DeviceData";

不过这个问题也非常大，很明显，未来的表，是不需要Id列的，但是DataArray也没有了，没有意义。

如果SELECT DISTINCT "Timestamp", "DeviceId", "DataArray"，那么可能出现"Timestamp", "DeviceId"重复的现象。

使用ON CONFLICT

如果我们直接建立新表格，设置好新的主键，然后插入数据，如果重复了就跳过不就行了？但是使用select into是不行了，重复的数据会导致语句执行中断。需要借助upsert（on conflict）方法。

INSERT INTO "DeviceData_temp"

SELECT * FROM "DeviceData"

on conflict("DeviceId", "Timestamp") DO NOTHING;

-- 删除原表

DROP TABLE "DeviceData";

-- 将新表重命名

ALTER TABLE "DeviceData_temp" RENAME TO "DeviceData";

执行不到100s就完成了，删除了许多重复数据。

您可能感兴趣的文章 :

原文链接 : https://www.cnblogs.com/podolski/p/16745080.html

Tag : 数据库(68)删除(11)PostgreSQL(13)

postgresql13主从搭建Ubuntu的教程

先安装完数据库以后，安装路径如下：数据库安装完毕以后，服务的安装路径为：/usr/lib/postgresql/13/bin/ 数据路径为：/var/lib/postgresql/13/ma
Postgresql删除数据库表中重复数据的几种方法

一直使用Postgresql数据库，有一张表是这样的： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 DROP TABLE IF EXISTS public.devicedata; CREATE TABLE public.devicedata ( Id varchar(20
PostgreSQL HOT与PHOT有哪些区别

1、HOT概述 PostgreSQL中，由于其多版本的特性，当我们进行数据更新时，实际上并不是直接修改元数据，而是通过新插入一行数据来进行间接
PostgreSQL索引失效会发生什么?

前段时间碰到个奇怪的索引失效的问题，实际情况类似下面这样： 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 bill=# begin; BEGIN bill=*# create inde
PostgreSQL pg_filenode.map文件介绍

今天在网上看到有人问误删pg_filenode.map该如何恢复或者重建，解决这个问题前我们先来了解下pg_filenode.map文件。对于PostgreSQL中的每张表在磁
PostgreSQL limit的神奇作用介绍

最近碰到这样一个SQL引发的性能问题，SQL内容大致如下： 1 2 3 4 5 6 7 SELECT * FROM t1 WHERE id = 999 AND (case $1 WHEN true THEN info = $2 ELSE info = $3 end) l
PostgreSql生产级别数据库安装要注意事项

我让公司的小伙伴写一个生产级别的PostgreSQL的安装文档，结果他和我说：不是用一个命令就能安装好么？还用写文档么？。我知道他想说的
PostgreSQL12.5中分区表的一些操作介绍

1、创建一个有DEFAULT的分区表 1、先创建主表 1 2 3 4 5 6 7 8 9 10 11 12 13 14 create table tbl_log ( id serial, create_time timestamp(0) without time zone, remark char
Postgres中UPDATE更新语句源码分析

PG中UPDATE源码分析本文主要描述SQL中UPDATE语句的源码分析，代码为PG13.3版本。整体流程分析以update dtea set id = 1;这条最简单的Update语句进行
在Centos8-stream安装PostgreSQL13的教程

一、安装postgresql13-server 1 2 yum install -y https://download.postgresql.org/pub/repos/yum/reporpms/EL-7-x86_64/pgdg-redhat-repo-latest.noarch.rpm yum install -y postgresql13-