我觉得这应该是一个非常明显的问题,但是是否有关于编写sparkDataframe的“选项”的文档?
我试着按照“如何控制输出文件的大小?”中的建议操作,但我没有得到我所期望的结果。我的scala代码是:
myDataDataFrame.write
.option("maxRecordsPerFile", calculatedMaxRecordsPerFile)
.mode(SaveMode.Overwrite)
.parquet(targetPath)
不管我怎么变化 calculatedMaxRecordsPerFile
我总是得到同样大小的文件。。。
我怀疑我还需要设置一些其他选项,但是我找不到任何描述所有选项的文档。
在任何人问起之前,是的,我做了一个google*搜索,试图找到这些信息。所有排名靠前的结果都指向stackoverflow!
(*其他搜索引擎可用)
暂无答案!
目前还没有任何答案,快来回答吧!