传递给spark的streamingcontext.filestream[k,v,f](“directory”)的key、value和inputformat类型的性质是什么

thtygnil  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(584)

据我所知,来自目录的流式文本文件需要类型为 LongWritable ,值为 Text ,以及 TextInputFormat . 它们在 textFileStream() 方法。
在这种情况下,键是行号,值是该行上的文本吗?
键和值类型应该是什么 ParquetInputFormat -更一般地说,对于其他文件类型,我如何自己解决这个问题?
另外,这些类型与 DStream 方法返回的?如果我传递一个parquet文件,它有行,比如说,100列,那么spark如何将其解析为rdd和dstream?

sqyvllje

sqyvllje1#

对于parquetinputformat,我认为键类型必须是void,值类型必须是表示数据的对象。 ssc.fileStream[Void, YourObject, ParquetInputFormat[YourObject]]("hdfs:...")

相关问题