spark-从hdfs读取隐藏文件

dzhpxtsq  于 2021-07-09  发布在  Spark
关注(0)|答案(2)|浏览(618)

我正在与PySparkShell一起分析hdfs中的数据。hdfs路径中有隐藏的文件,我想通过shell读取它们。但是点文件被spark忽略。我怎么看?

  1. # This is not loading hidden files into data-frame
  2. dir="/abc/xyz"
  3. df=spark.read.text(dir)
  4. # This is not loading hidden files into data-frame
  5. dir="/abc/xyz/*"
  6. df=spark.read.text(dir)
  7. # This is not loading hidden files into data-frame
  8. dir="/abc/xyz/.*"
  9. df=spark.read.text(dir)

如有任何建议,将不胜感激。

hjzp0vay

hjzp0vay1#

spark使用HadoopAPI从hdfs读入数据。hadoop输入格式具有路径筛选器,可以筛选出从“\”和“.”开始的文件。请尝试在配置中设置此属性fileinputformat.setinputpathfilter,然后使用newapihadoopfile创建rdd

deikduxw

deikduxw2#

试着改变你的道路。

  1. # This is not loading hidden files into data-frame
  2. # dir="/abc/xyz/.*"
  3. dir = "hdfs://yourhost:yourport/abc/xyz/"
  4. df=spark.read.text(dir)

相关问题