无法在pyspark(版本2.4.4)和python版本3.6.8中的dataframe列上使用导入的包

j2datikz 于 2021-05-22 发布在 Spark

关注(0)|答案(1)|浏览(585)

在我的aws群集中，我下载了一个python包：

python3 -m pip install Unidecode

现在，我想在名为'city'的pysparkDataframe列中使用它，该列的值如下：'sã圣保罗，塞洛普édica'etc（即带有口音），并希望创建一个名为'city\u no\u accents'的新列，该列将更正文本中的所有口音，并使其成为普通英语文本，如'sao paulo'、'seropedica'等。
所以，我写了下面的pyspark代码：

<...imported some other packages>
from unidecode import unidecode

def remove_accents(data):
    return unidecode(data)

if __name__ == '__main__':
    #create spark session
    spark = SparkSession.sparkSession("GetData")
    sc = spark.getSparkSession()
    logging.info("Spark Session initiated")
    sm = sparkManager.sparkManager(sc)
    remove_accents_udf = udf(remove_accents)

city_df_with_accents = city_df['city'] 

city_df_without_accents = city_df_with_accents.withColumn('city_no_accents', remove_accents_udf('city'))

city_df_without_accents.show(5)

上面代码的最后一行给出了以下错误：
文件“/usr/lib/spark/python/pyspark/serializers.py”，第580行，在loads return pickle.loads（obj，encoding=encoding）modulenotfounderror:没有名为“unidecode”的模块
但是如果我用一个字符串变量来代替dataframe列，那么它就可以正常工作了。例如：

x = 'são paulo'
remove_accents_udf(x)

输出：“圣保罗”
那么，有没有一种方法可以将特定Dataframe列（即“city”）的所有行转换为纯文本？
pyspark==>版本2.4.4
python==>版本3.6.8

python DataFrame apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/64369719/not-able-to-use-imported-package-on-a-dataframe-column-in-pyspark-version-2-4-4

1条答案

按热度按时间

yzuktlbb1#

我找到了一个解决方案（虽然可能不是最佳方案）
首先将pysparkDataframe转换为pandasDataframe：

import pandas as pd
from pyspark.sql.types import * 

city_geolocation_mappings_results_df_pd = city_geolocation_mappings_results_df.toPandas()

然后利用这个问题：如何替换Dataframe列中的重音符号
然后将Pandasdf转换回pyspark df。

赞(0）回复(0）举报 2021-05-22

我来回答

无法在pyspark(版本2.4.4)和python版本3.6.8中的dataframe列上使用导入的包

1条答案

相关问题

热门标签

最新问答