spark由于列值而崩溃

cgh8pdjw  于 2021-07-13  发布在  Spark
关注(0)|答案(0)|浏览(140)

我在s3中有orc格式的数据,在将数据读入dataframe(我使用python/pyspark)之后,当我想看到内容时( df.show() )或者使用任何其他操作(如聚合,然后试图将其转换为pandas)崩溃。经过长时间的调查我发现( Id 在我的情况下,有“字符串”数据类型),崩溃不会发生!!所以问题似乎出在 Id 列。但是,当我看不到问题的内容时,我应该如何正确地解决这个问题呢 Id 列?我需要你的帮助 Id 我的进一步分析。

df.printSchema()
root
 |-- profileId: string (nullable = true)
 |-- string: string (nullable = true)
 |-- sentAt: long (nullable = true)
 |-- delivered: string (nullable = false)
 |-- openedAt: long (nullable = true)
 |-- open: string (nullable = false

df.write.mode("overwrite").parquet("s3://loc/data")

以下是我从spark得到的错误:

....
Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 94, in rdd
    jrdd = self._jdf.javaToPython()
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco
    return f(*a,**kw)
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
    format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o622.javaToPython.

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题