我必须读取三个不同的bigquery表,然后将它们连接起来,得到一些数据,这些数据将被存储到gcs bucket中。我用的是Sparkbq连接器。
# Load data from BigQuery.
bqdf = spark.read.format('bigquery') \
.option('table', bq_dataset + bq_table) \
.load()
bqdf.createOrReplaceTempView('bqdf')
这会将整个表数据读取到dataframe。我知道我可以对表应用筛选器,也可以选择所需的列。然后创建三个Dataframe,然后将它们连接起来以获得输出。
有没有等效的方法来实现这一点?
我可以选择使用bigquery客户端api(https://googleapis.dev/python/bigquery/latest/index.html)从pyspark脚本导入。但是,如果我可以通过sparkbq连接器实现这一点,我不想使用python脚本的api调用。
请帮忙。
暂无答案!
目前还没有任何答案,快来回答吧!