我想把一份 Dataset<Rows>
像这样:
totalSet = sparkSession.emptyDataset(RowEncoder.apply(schema));
for(var currentDataset : datasetList)
totalSet = totalSet.union(currentDataset);
totalSet.show(10000,false);
datasetlist中大约有160个数据集。totalset在循环的末尾应该只有1k行。然而,spark被卡在了这个循环中。如果我只从datasetlist合并一个数据集,它就可以正常工作。我认为做工会应该是一个o(1)操作,但似乎不是这样。有人知道为什么这个代码挂起吗?
暂无答案!
目前还没有任何答案,快来回答吧!