For example, if you have the following files:
hdfs://a-hdfs-path/part-00000
hdfs://a-hdfs-path/part-00001
...
hdfs://a-hdfs-path/part-nnnnn
Do val rdd = sparkContext.wholeTextFile("hdfs://a-hdfs-path"),
then rdd contains
(a-hdfs-path/part-00000, its content)
(a-hdfs-path/part-00001, its content)
...
(a-hdfs-path/part-nnnnn, its content)
3条答案
按热度按时间rnmwe5a21#
你应该能够使用todebugstring。使用wholetextfile会将文件的整个内容作为一个元素读入,而sc.textfile会创建一个rdd,每一行都作为一个单独的元素-如这里所述。
例如:
3zwtqj6y2#
您可以尝试执行以下代码段中的操作:
更新(适用于java7)
kmynzznz3#
你想要spark的wholetextfiles函数。根据文件:
它返回一个rdd元组,左边是文件名,右边是内容。