Python函数向pyspark df添加二进制列

jtoj6r0c 于 2024-01-06 发布在 Spark

关注(0)|答案(2)|浏览(140)

我有一个类似productusage的框架：
| featureSk|个人号码|
| --|--|
| 一| 1001 |
| B| 1001 |
| C| 1003 |
| C| 1004 |
| 一| 1002 |
| B| 1005 |
我需要创建一个python函数，它有一个人的号码列表作为输入，并输出一个dateframe，其中有featureSk列的值从productusage作为列。基本上应该有一个列的每个featureSk值和一个0的行，如果PersonNumber不存在于productusage和1，如果它确实存在于productusage
输出应该是一个pandas框架，如：
| 个人号码|一|B| C|
| --|--|--|--|
| 1001 | 1 | 1 | 0 |
| 1002 | 0 | 0 | 0 |
| 1003 | 0 | 0 | 1 |
这就是我所尝试的

def add_featureSk_to_dataframe(Person_list):
    Person_list = pd.DataFrame(Person_list)
    df = productusage
    unique_values = df[featureSk].unique()
    for value in unique_vaues:
      for person in Persons_list:
        df = df.withColumn(value, lambda person: 1 if person in Persons_list else 0)
    return df
person_test = [1001,1002,1003]
add_featureSk_to_dataframe(person_test)

字符串
得到一个错误，即使定义了productusage，也没有定义featureSk

pyspark

来源：https://stackoverflow.com/questions/77626586/python-function-to-add-binary-columns-to-a-pyspark-df

2条答案

按热度按时间

9q78igpj1#

使用pd.crosstab：

out = pd.crosstab(df["PersonNumber"], df["featureSk"])
vals = [1001, 1002, 1003]
# with .reindex the missing vals are filled with 0
print(out.reindex(vals, fill_value=0))

字符串
印刷品：

featureSk     A  B  C
PersonNumber         
1001          1  1  0
1002          1  0  0
1003          0  0  1

型

展开查看全部

赞(0）回复(0）举报 2024-01-06

zazmityj2#

def person_has_product(person_list):
    df = dfPersonQuery
    
    #Distinct product names
    products = df.select("featureSk").distinct()
    
    # Filter df for the required persons
    filtered_df = df.filter(col("personnumber").isin(person_list))
    # Perform crosstab on the person and product columns
    cross_tab_result = filtered_df.crosstab("personnumber", "featureSk").withColumnRenamed("personnumber_featureSk", "personnumber")
    # Iterate through the distinct products in featureSk column
    
    for column in cross_tab_result.drop("personnumber").columns:
        cross_tab_result = cross_tab_result.withColumn(column,when(col(column) > 0, 1).otherwise(0))
    return print(cross_tab_result.toPandas())
    
person_lst =[1001, 1002, 1003]
person_has_product(person_lst)
`

字符串

展开查看全部

赞(0）回复(0）举报 2024-01-06

我来回答

Python函数向pyspark df添加二进制列

2条答案

相关问题

热门标签

最新问答