spark二进制数据源与sc.binaryfiles

oymdgrw7  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(520)

spark 3.0支持使用新数据源读取二进制数据:

val df = spark.read.format(“binaryFile”).load("/path/to/data")

使用以前的spark版本,您可以使用以下方式云加载数据:

val rdd = sc.binaryFiles("/path/to/data")

除了使用高级api访问二进制数据之外( Dataset )spark 3.0是否有任何附加的优点或特性与此特性一起引入?

l0oc07j2

l0oc07j21#

我认为除了开发人员使用高级api(dataframe/dataset)比使用低级api(rdd)对数据有更多的控制之外,没有任何额外的好处,而且他们不需要担心性能,因为它是由高级api自己优化/管理的。
参考-https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryfile.html
p、 我确实认为我的回答不符合正式的回答。我之前只想把它作为评论来添加,但由于我还没有获得评论的特权,所以无法添加

相关问题