scala—将hdfs文件读入字符串的最佳方法？

wj8zmpe1 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(358)

目前，我有以下代码。

try
        {           
            FileSystem fs = FileSystem.get(config);
            StringBuilder builder=new StringBuilder();
            byte[] buffer=new byte[4096];
            int bytesRead;

            FSDataInputStream in = fs.open(new Path(fname));
            while ((bytesRead = in.read(buffer)) > 0) 
                builder.append(new String(buffer, 0, bytesRead));
            in.close();

            return builder.toString();
        }
        catch (IOException ex) 
        {
            ex.printStackTrace();
            return "";
        }

如您所见，我已经为缓冲区分配了4096个字节。现在，既然hdfs块是64mb，那么分配一个64mb大小的缓冲区会更好吗？如果我的hdfs文件大小大于64mb，那么最有效的方法是什么呢。

hadoop hdfs scala apache-spark

来源：https://stackoverflow.com/questions/38032835/best-way-to-read-an-hdfs-file-into-a-string