我有一个 feather 格式的文件sales.feather
,我正在使用它在python
和R之间交换数据。
在R中,我使用以下命令:
df = arrow::read_feather("sales.feather", as_data_frame=TRUE)
在Python中,我使用了:
df = pandas.read_feather("sales.feather")
从该文件加载数据到内存到从pyspark
操作的Spark示例的最佳方法是什么?我还想控制pyspark.StorageLevel
从feather读取数据。
我不想使用pandas来加载数据,因为它会为我的19GB feather文件(从45GB csv创建)分割错误。
3条答案
按热度按时间lf5gs5x21#
也许您可以考虑切换到 parquet 格式?看起来更适合您的使用情况,请参阅What are the differences between feather and parquet?
3npbholx2#
您可以将pandas dataframe转换为Spark dataframe,如下所示。
azpvetkf3#
from pyspark import SparkContext
然后像下面这样使用createDataFrame: