如何从java计算sparksqlapi上的输入和输出行？

6pp0gazn 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(207)

我试图计算java进程读写的行数。该过程使用sqlapi处理行的数据集。添加 .count() 在不同的点上，它似乎慢了很多，即使我做了很多 .persist() 在这些点之前。
我也看到过这样的代码

.map(row -> {
  accumulator.add(1);
  return row;
}, SomeEncoder)

这工作得很好，但是反序列化和重新序列化整行似乎是不必要的，它不是精神上自动的，因为必须在每个点上找到正确的someencoder。
第三种方法是调用一个进行计数的udf0，然后删除它将返回的虚拟对象，但是我不确定spark是否可以优化整个代码，如果它能告诉udf0没有改变输出。
有没有一种不反序列化行的好方法？或者，有没有一种方法可以等效于java的streams .peek() 返回的数据在哪里不重要？
编辑：澄清一下，这份工作不仅仅是计算。清点只是为了记录在案。工作就是做其他事情。事实上，这是一个非常普遍的问题，我有很多作业正在对数据进行一些转换并将它们保存在某个地方，我只想保持这些作业读写了多少行的运行记录。
谢谢您

Java apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/61737234/how-to-count-input-and-output-rows-on-the-spark-sql-api-from-java

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何从java计算sparksqlapi上的输入和输出行？

暂无答案！

相关问题

热门标签

最新问答