这是pyspark的框架
和架构的架构。就两排。然后我想把它转换成Pandas相框。
但它在第三阶段暂停。没有结果,也没有关于手术的信息。为什么会发生这种情况?
而当我使用pandas_API时,结果也是一样的。
为什么会这样?我一整天都很烦。有人能帮我吗?这是包的版本。
5gfr0r5j1#
尝试在笔记本的第一个单元格中使用此导入findsparkfindspark.init()findspark.find()这将初始化木星笔记本中的Spark
pod7payv2#
在反复尝试之后,我发现原因是虽然在本地模式下运行,但源目录包含几个parquet文件。然后我需要将它转换为rdd并合并到一个分区中。然后将rdd转换为pyspark对象。然后pandas_API就可以正常工作了。希望这个答案能帮助到和我遇到同样问题的人。
2条答案
按热度按时间5gfr0r5j1#
尝试在笔记本的第一个单元格中使用此
导入findspark
findspark.init()
findspark.find()
这将初始化木星笔记本中的Spark
pod7payv2#
在反复尝试之后,我发现原因是虽然在本地模式下运行,但源目录包含几个parquet文件。然后我需要将它转换为rdd并合并到一个分区中。然后将rdd转换为pyspark对象。然后pandas_API就可以正常工作了。希望这个答案能帮助到和我遇到同样问题的人。