spark java api，数据集操作？

cwxwcias 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(325)

我是新的spark java api。我的数据集包含两列（account，lib）。我想显示具有不同lib的帐户。事实上，我的数据集是这样的。ds1型

+---------+------------+
    |  account|    Lib     |
    +---------+------------+
    | 222222  |  bbbb      |
    | 222222  |  bbbb      |
    | 222222  |  bbbb      |
    |         |            |
    | 333333  |  aaaa      |
    | 333333  |  bbbb      |
    | 333333  |  cccc      |
    |         |            |
    | 444444  |  dddd      |
    | 444444  |  dddd      |
    | 444444  |  dddd      |
    |         |            |
    | 555555  |  vvvv      |
    | 555555  |  hhhh      |
    | 555555  |  vvvv      |

我想得到这样的ds2：

+---------+------------+
|  account|    Lib     |
+---------+------------+
|         |            |
| 333333  |  aaaa      |
| 333333  |  bbbb      |
| 333333  |  cccc      |
|         |            |
| 555555  |  vvvv      |
| 555555  |  hhhh      |

Java hadoop hdfs apache-spark

来源：https://stackoverflow.com/questions/50644014/spark-java-api-dataset-manipulation

1条答案

按热度按时间

cwtwac6a1#

如果组较小，则可以使用窗口函数：

import org.apache.spark.sql.functions._
import org.apache.spark.sql.expressions.Window
df
  .withColumn("cnt", approx_count_distinct("Lib").over(Window.partitionBy("account")).alias("cnt"))
  .where(col("cnt") > 1)

如果组较大：

df.join(
  df
   .groupBy("account")
   .agg(countDistinct("Lib").alias("cnt")).where(col("cnt") > 1),
  Seq("account"),
  "leftsemi"
)

展开查看全部

赞(0）回复(0）举报 2021-05-29

我来回答

spark java api，数据集操作？

1条答案

相关问题

热门标签

最新问答