azure 如何将PySpark数据框转换为R可以在DataBricks中识别的内容?

neskvpey  于 2023-02-25  发布在  Spark
关注(0)|答案(1)|浏览(193)

我已经使用Python访问了我的Azure数据库,现在我想回收一些R代码以继续此分析。我是否可以在这两种语言之间进行交换?例如,在Python中导入 Dataframe ,然后使用R代码使用该 Dataframe 。

    • 数据导入到PySpark数据框架中**
venue_list_raw = spark.read.option("inferSchema", "true").option("header", "true").csv("path.csv")
    • 继续R中的工作,例如**
venue_list <- venue_list_raw %>% mutate(postcode_short = substr(postcode,1,nchar(str_extract(postcode,"(\\w+)"))+2))

我已经试过了:

%r
library(SparkR)
library(dbplyr)
# collect the data from Spark to local
# convert Spark DataFrame into R data frame
mailing_list_raw_r <- collect(mailing_list_raw)
display(mailing_list_raw_r)
nxowjjhe

nxowjjhe1#

如果你在数据库中执行上述操作,你可以通过为 Dataframe 创建临时视图来完成,然后在R中访问该视图,如下所示。

df.createOrReplaceTempView("temp1")

代码:

df2 <- tableToDF("view_name")
display(df2)

或者像下面这样。

sc <- spark_connect(method = "databricks")
r_df <- collect(spark_read_table(
  sc   = sc,
  name = "temp1"
))
display(r_df)

相关问题