向pyspark.sql.functions.udf传递可变数量的参数

nsc4cvqm 于 2024-01-06 发布在 Spark

关注(0)|答案(1)|浏览(171)

我正在使用pyspark创建一个spark结构的流应用程序，并希望将每一行的数据输出为json包。我正在使用udf，如下所示。

from pyspark.sql.functions import udf
1 def create_json_packet(when, ip, mac):
2     json_dict = {
3        'When': when.timestamp(),
4        'IP': ip,
5        'MAC': mac
6    }
7    return json.dumps(json_dict)
8 def construct_output_packet(data_frame)
9      json_udf = udf(create_json_packet, StringType())
10     out_df = data_frame.select(json_udf(data_frame.when, data_frame.ip, data_frame.mac)).alias("output_json"))
11     return out_df

字符串
这是工作正常，我得到了一个很好的格式化JSON的方式，我想如下所示

+------------------------------------------------------------------------+
|output_json                                                             |
+------------------------------------------------------------------------+
|{"When": 1704204003.0, "IP": "10.14.6.11", "MAC": "3C:A3:08:4D:91:71"}  |
|{"When": 1704204003.0, "IP": "10.18.11.98", "MAC": "02:3F:3B:94:8F:E0"} |
|{"When": 1704204003.0, "IP": "10.13.21.51", "MAC": "F0:3C:07:95:34:C5"} |
+------------------------------------------------------------------------+

型
现在的问题是data_frame在第10行有超过20列，我不想手动展开所有这些并更新create_json_packet，它输入了20个参数。有没有什么方法可以使用某种列表/compact for循环和**kwargs来实现这一点，data_frame中的列名变成了**kwargs的keys，我可以用它来生成json对象。

pyspark

来源：https://stackoverflow.com/questions/77746640/passing-variable-number-of-parameters-to-pyspark-sql-functions-udf

1条答案

按热度按时间

xesrikrc1#

您可以创建一个列数组，并将其传递给withColumn中的udf。

from pyspark.sql import SparkSession
from pyspark.sql.functions import udf
from pyspark.sql.types import StringType
import json
# Sample data
data = [
    ("2022-01-01", "192.168.1.1", "00:1A:2B:3C:4D:5E"),
    ("2022-01-02", "192.168.1.2", "11:22:33:44:55:66"),
    # Add more rows with similar structure
]
# Define the schema for the DataFrame
columns = ["when", "ip", "mac"]
# Create the DataFrame
df = spark.createDataFrame(data, columns)
# Define a UDF to create a dictionary from variable parameters
@udf(StringType())
def create_json_packet(*args):
    subset_dict = dict(zip(subset_columns, args))
    return json.dumps(subset_dict)
# Specify the subset of columns you want to include in the dictionary
subset_columns = ["when", "ip"]
df \
.withColumn("output_json", create_json_packet(*subset_columns)) \
.show(10, truncate=False)
Output:
+----------+-----------+-----------------+-------------------------------------------+
|when      |ip         |mac              |output_json                                |
+----------+-----------+-----------------+-------------------------------------------+
|2022-01-01|192.168.1.1|00:1A:2B:3C:4D:5E|{"when": "2022-01-01", "ip": "192.168.1.1"}|
|2022-01-02|192.168.1.2|11:22:33:44:55:66|{"when": "2022-01-02", "ip": "192.168.1.2"}|
+----------+-----------+-----------------+-------------------------------------------+

字符串
或者，如果你愿意，你也可以把subset_columns数组作为参数传递给udf：

from pyspark.sql.functions import lit
# Define a UDF to create a dictionary from variable parameters
@udf(StringType())
def create_json_packet(subset_columns, *args):
    subset_dict = dict(zip(subset_columns, args))
    return json.dumps(subset_dict)
df \
.withColumn("output_json", create_json_packet(lit(subset_columns), *subset_columns)) \
.show(10, truncate=False)

型

展开查看全部

赞(0）回复(0）举报 2024-01-06

我来回答

向pyspark.sql.functions.udf传递可变数量的参数

1条答案

相关问题

热门标签

最新问答