spark二进制数据源与sc.binaryfiles

oymdgrw7 于 2021-05-29 发布在 Spark

关注(0)|答案(1)|浏览(520)

spark 3.0支持使用新数据源读取二进制数据：

val df = spark.read.format(“binaryFile”).load("/path/to/data")

使用以前的spark版本，您可以使用以下方式云加载数据：

val rdd = sc.binaryFiles("/path/to/data")

除了使用高级api访问二进制数据之外( Dataset )spark 3.0是否有任何附加的优点或特性与此特性一起引入？

scala apache-spark spark3 binary-data

来源：https://stackoverflow.com/questions/62594687/spark-binary-data-source-vs-sc-binaryfiles

1条答案

按热度按时间

l0oc07j21#

我认为除了开发人员使用高级api（dataframe/dataset）比使用低级api（rdd）对数据有更多的控制之外，没有任何额外的好处，而且他们不需要担心性能，因为它是由高级api自己优化/管理的。
参考-https://spark.apache.org/docs/3.0.0-preview/sql-data-sources-binaryfile.html
p、我确实认为我的回答不符合正式的回答。我之前只想把它作为评论来添加，但由于我还没有获得评论的特权，所以无法添加

赞(0）回复(0）举报 2021-05-29

我来回答

spark二进制数据源与sc.binaryfiles

1条答案

相关问题

热门标签

最新问答