我把一些我想用作本机数据类型的自定义类放在一起,即sparksql。我看到UDT刚刚向公众开放,但很难搞清楚。有没有办法让我这么做?
例子
case class IPv4(ipAddress: String){
// IPv4 converted to a number
val addrL: Long = IPv4ToLong(ipAddress)
}
// Will read in a bunch of random IPs in the form {"ipAddress": "60.80.39.27"}
val IPv4DF: DataFrame = spark.read.json(path)
IPv4DF.createOrReplaceTempView("IPv4")
spark.sql(
"""SELECT *
FROM IPv4
WHERE ipAddress.addrL > 100000"""
)
1条答案
按热度按时间xkftehaa1#
你可以构造一个
Dataset
并使用case类进行筛选addrL
属性: