我正在与PySparkShell一起分析hdfs中的数据。hdfs路径中有隐藏的文件,我想通过shell读取它们。但是点文件被spark忽略。我怎么看?
# This is not loading hidden files into data-frame
dir="/abc/xyz"
df=spark.read.text(dir)
# This is not loading hidden files into data-frame
dir="/abc/xyz/*"
df=spark.read.text(dir)
# This is not loading hidden files into data-frame
dir="/abc/xyz/.*"
df=spark.read.text(dir)
如有任何建议,将不胜感激。
2条答案
按热度按时间hjzp0vay1#
spark使用HadoopAPI从hdfs读入数据。hadoop输入格式具有路径筛选器,可以筛选出从“\”和“.”开始的文件。请尝试在配置中设置此属性fileinputformat.setinputpathfilter,然后使用newapihadoopfile创建rdd
deikduxw2#
试着改变你的道路。