在hdfs中获取parquet文件的大小，以便在scala中使用spark重新分区

cwxwcias 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(485)

我在hdfs上有许多parquet文件目录，每个目录包含几千个小的（大多数<100kb）parquet文件。他们减慢了我的Spark工作，所以我想结合他们。
使用以下代码，我可以将本地Parquet文件重新划分为较少的部分：

val pqFile = sqlContext.read.parquet("file:/home/hadoop/data/file.parquet")
pqFile.coalesce(4).write.save("file:/home/hadoop/data/fileSmaller.parquet")

但我不知道如何通过scala代码编程获得hdfs上目录的大小，因此我无法计算传递给服务器的分区数 coalesce 实际数据集的函数。
我该怎么做？或者在spark中是否有一种方便的方法，以便我可以配置writer来编写固定大小的Parquet地板分区？

hadoop hdfs scala apache-spark parquet

来源：https://stackoverflow.com/questions/33988786/get-size-of-parquet-file-in-hdfs-for-repartition-with-spark-in-scala

1条答案

按热度按时间

bvn4nwqk1#

你可以试试

pqFile.inputFiles.size

根据文档，它返回“组成此Dataframe的文件的最大努力快照”。
或者，直接在hdfs级别：

val hdfs: org.apache.hadoop.fs.FileSystem =
  org.apache.hadoop.fs.FileSystem.get(
    new org.apache.hadoop.conf.Configuration())
val hadoopPath= new org.apache.hadoop.fs.Path("hdfs://localhost:9000/tmp")
val recursive = false
val ri = hdfs.listFiles(hadoopPath, recursive)
val it = new Iterator[org.apache.hadoop.fs.LocatedFileStatus]() {
  override def hasNext = ri.hasNext
  override def next() = ri.next()
}
// Materialize iterator
val files = it.toList
println(files.size)
println(files.map(_.getLen).sum)

这样你也可以得到文件大小。

展开查看全部

赞(0）回复(0）举报 2021-06-02

我来回答

在hdfs中获取parquet文件的大小，以便在scala中使用spark重新分区

1条答案

相关问题

热门标签

最新问答