pyspark Spark Connect上的Pandas API支持

4bbkushb 于 2024-01-06 发布在 Spark

关注(0)|答案(1)|浏览(151)

我尝试在Spark Connect上使用Spark PANDAS API，但出现Assert错误

assert isinstance(spark_frame, SparkDataFrame)
AssertionError

字符串
如果我使用spark Dataframe API，我不会得到任何错误。Spark connect支持Pandas-Spark API吗？
下面是我正在运行的代码。

import pyspark.pandas as pd
from pyspark.sql import Row
# Stopping regular Spark Session before trying the SPARK Connect Functionality
from pyspark.sql import SparkSession
SparkSession.builder.master("local[*]").getOrCreate().stop()
# Start the spark connect server running below
#./start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.0
# Start Spark Session by Specifying the Spark Cluster Address ( local host.)
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(d)
print(df.head())
import pyspark.pandas as pd
from pyspark.sql import Row
# Stopping regular Spark Session before trying the SPARK Connect Functionality
from pyspark.sql import SparkSession
SparkSession.builder.master("local[*]").getOrCreate().stop()
# Start the spark connect server running below
#./start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.0
# Start Spark Session by Specifying the Spark Cluster Address ( local host.)
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(d)
print(df.head())
'''
df = spark.createDataFrame([
    Row(a=1, b=2., c='string1'),
    Row(a=2, b=3., c='string2'),
    Row(a=4, b=5., c='string3')
])
df.show()
'''

型

pyspark

来源：https://stackoverflow.com/questions/76737691/pandas-api-support-on-spark-connect

1条答案

按热度按时间

o2rvlv0m1#

下面是代码的更正版本

import pyspark.pandas as pd
from pyspark.sql import SparkSession
from pyspark.sql import Row
# Stopping regular Spark Session before trying the SPARK Connect Functionality
SparkSession.builder.master("local[*]").getOrCreate().stop()
# Start the Spark connect server running below
# ./start-connect-server.sh --packages org.apache.spark:spark-connect_2.12:3.4.0
# Start Spark Session by Specifying the Spark Cluster Address ( local host.)
spark = SparkSession.builder.remote("sc://localhost:15002").getOrCreate()
# Create a Spark DataFrame using Spark Session
df_spark = spark.createDataFrame([
   Row(col1=1, col2=3),
   Row(col1=2, col2=4)
])
# Convert the Spark DataFrame to a Pandas DataFrame using the Pandas Spark API
df_pandas = df_spark.toPandas()
print(df_pandas.head())

字符串
注意：在尝试远程连接之前，请确保您的Spark集群和Spark Connect服务器已正确配置并运行。

展开查看全部

赞(0）回复(0）举报 2024-01-06

我来回答

pyspark Spark Connect上的Pandas API支持

1条答案

相关问题

热门标签

最新问答