如何在spark scalaDataframe中应用布尔索引？

mqkwyuun 于 2021-05-27 发布在 Spark

关注(0)|答案(2)|浏览(516)

我有两个spark scalaDataframe，我需要使用一个Dataframe中的一个布尔列来过滤第二个Dataframe。两个Dataframe的行数相同。
在Pandas中，我希望它是这样的：

import pandas as pd
df1 = pd.DataFrame({"col1": ["A", "B", "A", "C"], "boolean_column": [True, False, True, False]})
df2 = pd.DataFrame({"col1": ["Z", "X", "Y", "W"], "col2": [1, 2, 3, 4]})
filtered_df2 = df2[df1['boolean_column']]
// Expected filtered_df2 should be this:
// df2 = pd.DataFrame({"col1": ["Z", "Y"], "col2": [1, 3]})

如何在spark scala中以最节省时间的方式执行相同的操作？
我目前的解决办法是 "boolean_column" 从 df1 至 df2 ，然后筛选 df2 只选择具有 true 新添加列中的值，最后删除 "boolean_column" 从 df2 ，但我不确定这是不是最好的解决办法。
任何建议都将不胜感激。
编辑：
预期的输出是一个sparkscalaDataframe（不是列表或列），它与第二个Dataframe具有相同的模式，并且只有来自的行的子集 df2 满足 "boolean_column" 的 df1 .
的模式 df2 上面介绍的只是一个例子。我期待着收到 df2 作为参数，具有不同（且不固定）模式的任意数量的列。

scala apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/63799126/how-can-i-apply-boolean-indexing-in-a-spark-scala-dataframe

2条答案

按热度按时间

w8ntj3qf1#

我用以下代码解决了这个问题：

import org.apache.spark.sql.types.{LongType, StructField, StructType}
import org.apache.spark.{SparkConf, SparkContext}
import org.apache.spark.sql.{DataFrame, Row, SQLContext, SparkSession}
val spark = SparkSession.builder().appName(sc.appName).master(sc.master).getOrCreate()
val sqlContext = spark.sqlContext
def addColumnIndex(df: DataFrame, sqlContext: SQLContext) = sqlContext.createDataFrame(
  // Add Column index
  df.rdd.zipWithIndex.map{case (row, columnindex) => Row.fromSeq(row.toSeq :+ columnindex)},
  // Create schema
  StructType(df.schema.fields :+ StructField("columnindex", LongType, nullable = false))
)
import spark.implicits._
val DF1 = Seq(
  ("A", true),
  ("B", false),
  ("A", true),
  ("C", false)
).toDF("col1", "boolean_column")
val DF2 = Seq(
  ("Z", 1),
  ("X", 2),
  ("Y", 3),
  ("W", 4)
).toDF("col_1", "col_2")
// Add index
val DF1WithIndex = addColumnIndex(DF1, sqlContext)
val DF2WithIndex = addColumnIndex(DF2, sqlContext)
// Join
val joinDF  = DF2WithIndex
  .join(DF1WithIndex, Seq("columnindex"))
  .drop("columnindex", "col1")
// Filter
val filteredDF2 = joinDF.filter(joinDF("boolean_column")).drop("boolean_column")

过滤后的Dataframe如下所示：

+-----+-----+
|col_1|col_2|
+-----+-----+
|    Z|    1|
|    Y|    3|
+-----+-----+

展开查看全部

赞(0）回复(0）举报 2021-05-27

uubf1zoe2#

两个都可以 DataFrame 然后过滤这些元组。

val ints     = sparkSession.sparkContext.parallelize(List(1, 2, 3, 4, 5, 6, 7, 8, 9, 10))
val bools    = sparkSession.sparkContext.parallelize(List(true, false, true, false, true, false, true, false, true, false))
val filtered = ints.zip(bools).filter { case (int, bool) => bool }.map { case (int, bool) => int }
println(filtered.collect().toList) //List(1, 3, 5, 7, 9)

赞(0）回复(0）举报 2021-05-27

我来回答

如何在spark scalaDataframe中应用布尔索引？

2条答案

相关问题

热门标签

最新问答