我在s3中有orc格式的数据,在将数据读入dataframe(我使用python/pyspark)之后,当我想看到内容时( df.show()
)或者使用任何其他操作(如聚合,然后试图将其转换为pandas)崩溃。经过长时间的调查我发现( Id
在我的情况下,有“字符串”数据类型),崩溃不会发生!!所以问题似乎出在 Id
列。但是,当我看不到问题的内容时,我应该如何正确地解决这个问题呢 Id
列?我需要你的帮助 Id
我的进一步分析。
df.printSchema()
root
|-- profileId: string (nullable = true)
|-- string: string (nullable = true)
|-- sentAt: long (nullable = true)
|-- delivered: string (nullable = false)
|-- openedAt: long (nullable = true)
|-- open: string (nullable = false
df.write.mode("overwrite").parquet("s3://loc/data")
以下是我从spark得到的错误:
....
Traceback (most recent call last):
File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/dataframe.py", line 94, in rdd
jrdd = self._jdf.javaToPython()
File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/java_gateway.py", line 1257, in __call__
answer, self.gateway_client, self.target_id, self.name)
File "/usr/lib/spark/python/lib/pyspark.zip/pyspark/sql/utils.py", line 63, in deco
return f(*a,**kw)
File "/usr/lib/spark/python/lib/py4j-0.10.7-src.zip/py4j/protocol.py", line 328, in get_return_value
format(target_id, ".", name), value)
py4j.protocol.Py4JJavaError: An error occurred while calling o622.javaToPython.
暂无答案!
目前还没有任何答案,快来回答吧!