pyspark Pandas的等价物也能在体育公园使用？

icomxhvb 于 2022-12-17 发布在 Spark

关注(0)|答案(2)|浏览(122)

我真的希望能够在spark Dataframe 的整个列上运行复杂的函数，就像我在Pandas中使用apply函数所做的那样。
例如，在Pandas中，我有一个apply函数，它接受像www.example.com这样混乱的域sub-subdomain.subdomain.facebook.co.nz/somequerystring，只输出facebook.com。
在Spark我该怎么做？
我已经看过UDF，但我不清楚如何在单个列上运行它。
假设我有一个简单的函数，如下所示，我从PandasDF列中提取日期的不同部分：

def format_date(row):
    year = int(row['Contract_Renewal'][7:])
    month = int(row['Contract_Renewal'][4:6])
    day = int(row['Contract_Renewal'][:3])
    date = datetime.date(year, month, day)
    return date-now

在《Pandas》中我会这样称呼它：

df['days_until'] = df.apply(format_date, axis=1)

我能在Pyspark中实现同样的目标吗？

pyspark

来源：https://stackoverflow.com/questions/61034251/equivalent-of-pandas-apply-in-pyspark

2条答案

按热度按时间

qxgroojn1#

在这种情况下，您可以使用regexp_extract（http：API？突出显示=子字符串#pyspark.sql.functions.regexp_extract）、regexp_replace（http：//spark.apache.org/docs/latest/api/python/pyspark.sql.html？突出显示=子字符串#pyspark.sql.functions.regexp_replace）和split（http：//spark.apache.org/docs/latest/api/python/pyspark.sql.html？突出显示=子字符串#pyspark.sql.functions.split）的某种组合来重新格式化字符串的日期。
它不像定义自己的函数和使用像Pandas那样的apply那样干净，但它应该比定义Pandas/Spark UDF更有性能。
祝你好运！

赞(0）回复(0）举报 2022-12-17

xzlaal3s2#

最新版本的PySpark提供了一种利用panda来运行apply（）函数的方法。

# Imports
import pyspark.pandas as ps
import numpy as np

technologies = ({
    'Fee' :[20000,25000,30000,22000,np.NaN],
    'Discount':[1000,2500,1500,1200,3000]
               })
# Create a DataFrame
psdf = ps.DataFrame(technologies)
print(psdf)

def add(row):
   return row[0]+row[1]
   
addDF = psdf.apply(add,axis=1)
print(addDF)

赞(0）回复(0）举报 2022-12-17

我来回答

pyspark Pandas的等价物也能在体育公园使用？

2条答案

相关问题

热门标签

最新问答