在hdfs中获取parquet文件的大小,以便在scala中使用spark重新分区

cwxwcias  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(485)

我在hdfs上有许多parquet文件目录,每个目录包含几千个小的(大多数<100kb)parquet文件。他们减慢了我的Spark工作,所以我想结合他们。
使用以下代码,我可以将本地Parquet文件重新划分为较少的部分:

  1. val pqFile = sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")
  2. pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")

但我不知道如何通过scala代码编程获得hdfs上目录的大小,因此我无法计算传递给服务器的分区数 coalesce 实际数据集的函数。
我该怎么做?或者在spark中是否有一种方便的方法,以便我可以配置writer来编写固定大小的Parquet地板分区?

bvn4nwqk

bvn4nwqk1#

你可以试试

  1. pqFile.inputFiles.size

根据文档,它返回“组成此Dataframe的文件的最大努力快照”。
或者,直接在hdfs级别:

  1. val hdfs: org.apache.hadoop.fs.FileSystem =
  2. org.apache.hadoop.fs.FileSystem.get(
  3. new org.apache.hadoop.conf.Configuration())
  4. val hadoopPath= new org.apache.hadoop.fs.Path("hdfs://localhost:9000/tmp")
  5. val recursive = false
  6. val ri = hdfs.listFiles(hadoopPath, recursive)
  7. val it = new Iterator[org.apache.hadoop.fs.LocatedFileStatus]() {
  8. override def hasNext = ri.hasNext
  9. override def next() = ri.next()
  10. }
  11. // Materialize iterator
  12. val files = it.toList
  13. println(files.size)
  14. println(files.map(_.getLen).sum)

这样你也可以得到文件大小。

展开查看全部

相关问题