我用电子病历上的spark来处理数据。基本上,我从awss3读取数据,然后进行转换和转换后,我将数据加载/写入oracle表。
最近我们发现hdfs(/mnt/hdfs)的利用率太高了。
我没有将任何数据写入hdfs(/mnt/hdfs),但是spark正在创建块并将数据写入其中。我们将把所有的操作都存储在内存中。
为什么spark仍在向数据节点写入数据?
向datanode(hdfs)写入数据的任何特定操作?
这是创建的hdfs目录。
- 15.4g/mnt/hdfs/current/bp-6706123673-10.xx.xx.-1588026945812/current/finalized/subdir1
129g/mnt/hdfs/current/bp-6706123673-10.xx.xx.-1588026945812/current/finalized
129g/mnt/hdfs/当前/bp-6706123673-10.xx.xx.-1588026945812/当前
129g/mnt/hdfs/current/bp-6706123673-10.xx.xx.-1588026945812
129g/mnt/hdfs/当前129g/mnt/hdfs*
暂无答案!
目前还没有任何答案,快来回答吧!