如何使用spark bigquery连接器连接多个表,然后将数据提取到dataframe中?

ar5n3qh5  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(237)

我必须读取三个不同的bigquery表,然后将它们连接起来,得到一些数据,这些数据将被存储到gcs bucket中。我用的是Sparkbq连接器。


# Load data from BigQuery.

bqdf = spark.read.format('bigquery') \
    .option('table', bq_dataset + bq_table) \
    .load()
bqdf.createOrReplaceTempView('bqdf')

这会将整个表数据读取到dataframe。我知道我可以对表应用筛选器,也可以选择所需的列。然后创建三个Dataframe,然后将它们连接起来以获得输出。
有没有等效的方法来实现这一点?
我可以选择使用bigquery客户端api(https://googleapis.dev/python/bigquery/latest/index.html)从pyspark脚本导入。但是,如果我可以通过sparkbq连接器实现这一点,我不想使用python脚本的api调用。
请帮忙。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题