spark由于列值而崩溃

cgh8pdjw 于 2021-07-13 发布在 Spark

关注(0)|答案(0)|浏览(152)

我在s3中有orc格式的数据，在将数据读入dataframe（我使用python/pyspark）之后，当我想看到内容时( df.show() )或者使用任何其他操作（如聚合，然后试图将其转换为pandas）崩溃。经过长时间的调查我发现( Id 在我的情况下，有“字符串”数据类型），崩溃不会发生！！所以问题似乎出在 Id 列。但是，当我看不到问题的内容时，我应该如何正确地解决这个问题呢 Id 列？我需要你的帮助 Id 我的进一步分析。

df.printSchema()
root
 |-- profileId: string (nullable = true)
 |-- string: string (nullable = true)
 |-- sentAt: long (nullable = true)
 |-- delivered: string (nullable = false)
 |-- openedAt: long (nullable = true)
 |-- open: string (nullable = false

df.write.mode("overwrite").parquet("s3://loc/data")

以下是我从spark得到的错误：

....
Traceback (most recent call last):
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 94, in rdd
    jrdd = self._jdf.javaToPython()
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
    answer, self.gateway_client, self.target_id, self.name)
  File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco
    return f(*a,**kw)
  File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
    format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o622.javaToPython.

python apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/66194582/spark-crashes-due-to-column-value

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

spark由于列值而崩溃

暂无答案！

相关问题

热门标签

最新问答