从Postgresql/AWS导入数据后BigQuery表中出现重复

7gcisfzg  于 2023-11-18  发布在  PostgreSQL
关注(0)|答案(1)|浏览(85)

我们在AWS中托管了一个Postgresql数据库。如果我用psql或python库或tableau查询它,行就会匹配。
但是我希望能够在BigQuery中使用它,并且我看到一些表的重复行。我没有创建BigQuery连接,但是创建BigQuery连接的人总是忙碌,所以我想帮忙,但是我超级不知道我应该在这里注意什么。
我知道问题不是PostgreSQL DB本身,否则,psql/python/etc中的行数将不匹配。
所以问题是如何在BigQuery中摄取数据。我想知道你的建议是什么,以便尽我所能摆脱这个问题。
预先感谢你能给我的任何帮助给予。

jvlzgdj9

jvlzgdj91#

为了说明一个简单的方法来识别重复-

select distinct * from table.location

字符串
当然,如果有任何自动递增的列,你需要忽略它们(用从Postgres摄取的列替换*)。
然后只需从验证后的结果创建一个新表-

CREATE OR REPLACE TABLE new_table.location
AS
SELECT
DISTINCT *
FROM table.location
group by 1

相关问题