据我所知,来自目录的流式文本文件需要类型为 LongWritable
,值为 Text
,以及 TextInputFormat
. 它们在 textFileStream()
方法。
在这种情况下,键是行号,值是该行上的文本吗?
键和值类型应该是什么 ParquetInputFormat
-更一般地说,对于其他文件类型,我如何自己解决这个问题?
另外,这些类型与 DStream
方法返回的?如果我传递一个parquet文件,它有行,比如说,100列,那么spark如何将其解析为rdd和dstream?
1条答案
按热度按时间sqyvllje1#
对于parquetinputformat,我认为键类型必须是void,值类型必须是表示数据的对象。
ssc.fileStream[Void, YourObject, ParquetInputFormat[YourObject]]("hdfs:...")