pyspark Airbyte - Spark SQL查询一直失败(这些列的更新发生冲突：data_user_id)

dnph8jn4 于 2023-04-29 发布在 Spark

关注(0)|答案(1)|浏览(88)

我用python编写了一个airbyte自定义目的地。我已经使用此查询实现了增量同步重复数据消除操作，

MERGE INTO {self.schema_name}.{table_name} AS target
USING {self.schema_name}.{table_name}_temp AS source
ON target.data_{primary_keys[0][0]}=source.data_{primary_keys[0][0]}
WHEN MATCHED THEN
        {query_placeholder_refined}
WHEN NOT MATCHED THEN
        INSERT *

这里，query_placeholder_refined变量被UPDATE SET查询语句替换，其中目标表的所有列分别被更新，例如采用该查询的简化版本，

MERGE INTO integration.issues as target
USING integration.issues_temp as source
ON target.data_id=source.data_id
WHEN MATCHED THEN
        UPDATE SET target.data_issue_url=source.data_issue_url, target.data_user_id=source.data_user_id 
WHEN NOT MATCHED THEN 
        INSERT *

查询在一些流上运行得很好，但对于其他流，它给出了这个错误，pyspark.sql.utils.AnalysisException: Updates are in conflict for these columns: data_user_id

pyspark

来源：https://stackoverflow.com/questions/76076272/airbyte-spark-sql-query-keeps-failing-updates-are-in-conflict-for-these-colum