spark 3.0支持使用新数据源读取二进制数据:
val df = spark.read.format(“binaryFile”).load("/path/to/data")
使用以前的spark版本,您可以使用以下方式云加载数据:
val rdd = sc.binaryFiles("/path/to/data")
除了使用高级api访问二进制数据之外( Dataset
)spark 3.0是否有任何附加的优点或特性与此特性一起引入?
spark 3.0支持使用新数据源读取二进制数据:
val df = spark.read.format(“binaryFile”).load("/path/to/data")
使用以前的spark版本,您可以使用以下方式云加载数据:
val rdd = sc.binaryFiles("/path/to/data")
除了使用高级api访问二进制数据之外( Dataset
)spark 3.0是否有任何附加的优点或特性与此特性一起引入?
1条答案
按热度按时间l0oc07j21#
我认为除了开发人员使用高级api(dataframe/dataset)比使用低级api(rdd)对数据有更多的控制之外,没有任何额外的好处,而且他们不需要担心性能,因为它是由高级api自己优化/管理的。
参考-https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryfile.html
p、 我确实认为我的回答不符合正式的回答。我之前只想把它作为评论来添加,但由于我还没有获得评论的特权,所以无法添加