从bigquery读取字符串空值时出现问题

2ul0zpep 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(480)

目前我正在使用spark从bigqiery表中读取数据，并将其作为csv写入存储桶。我面临的一个问题是spark没有从bq正确读取空字符串值。它读取空字符串值，但在csv中，它将该值写为带双引号的空字符串（即，像这样的“”）。


# Load data from BigQuery.

bqdf = spark.read.format('bigquery') \
    .option('table', <bq_dataset> + <bq_table>) \
    .load()
bqdf.createOrReplaceTempView('bqdf')

# Select required data into another df

bqdf2 = spark.sql(
    'SELECT * FROM bqdf')

# write to GCS

bqdf2.write.csv(<gcs_data_path> + <bq_table> + '/' , mode='overwrite', sep= '|')

在写入csv时，我尝试了df.write.csv（）的emptyvalue=''和nullvalue选项，但都不起作用。
我需要一个解决这个问题的办法，如果有人面临这个问题，可以帮助。谢谢！

apache-spark pyspark pyspark-dataframes google-bigquery google-cloud-platform

来源：https://stackoverflow.com/questions/61746634/problem-in-reading-string-null-values-from-bigquery

1条答案

按热度按时间

zynd9foi1#

我能够重现您的案例，并找到了一个解决方案，该解决方案与我在bigquery中创建的示例表一起工作。数据如下：

根据pyspark文档，在pyspark.sql.dataframewriter（df）类中，有一个名为nullvalue的选项：
nullvalue–设置空值的字符串表示形式。如果未设置，则使用默认值空字符串。
这就是你要找的。然后，我实现了下面的nullvalue选项。

sc = SparkContext()
spark = SparkSession(sc)

# Read the data from BigQuery as a Spark Dataframe.

data = spark.read.format("bigquery").option(
    "table", "dataset.table").load()

# Create a view so that Spark SQL queries can be run against the data.

data.createOrReplaceTempView("data_view")

# Select required data into another df

data_view2 = spark.sql(
    'SELECT * FROM data_view')

df=data_view2.write.csv('gs://bucket/folder', header=True, nullValue='')

data_view2.show()

注意我用了 data_view2.show() 打印视图以检查是否正确读取。输出为：

+------+---+
|name  |age|
+------+---+
|Robert| 25|
|null  | 23|
+------+---+

因此，对空值进行了精确的解释。此外，我还检查了.csv文件：

name,age
Robert,25
,23

正如您所看到的，空值是正确的，不表示为双引号之间的空字符串。最后，作为最后的检查，我创建了一个从这个.csv文件到bigquery的加载作业。创建了表，并准确地解释了空值。
注意：我在先前创建的dataproc集群中从dataproc作业的控制台运行了pyspark作业。此外，集群与bigquery中的数据集位于同一位置。

赞(0）回复(0）举报 2021-05-27

我来回答

从bigquery读取字符串空值时出现问题

1条答案

相关问题

热门标签

最新问答