我可以在spark mllib中使用csv吗?

tpgth1q7  于 2021-05-26  发布在  Spark
关注(0)|答案(1)|浏览(547)

我对使用spark的mllibpythonapi还不熟悉。我的数据是csv格式的,如下所示:

Label   0   1   2   3   4   5   6   7   8   9   ... 758 759 760 761 762 763 764 765 766 767
0   -0.168307   -0.277797   -0.248202   -0.069546   0.176131    -0.152401   0.12664 -0.401460   0.125926    0.279061    ... -0.289871   0.207264    -0.140448   -0.426980   -0.328994   0.328007    0.486793    0.222587    0.650064    -0.513640
3   -0.313138   -0.045043   0.279587    -0.402598   -0.165238   -0.464669   0.09019 0.008703    0.074541    0.142638    ... -0.094025   0.036567    -0.059926   -0.492336   -0.006370   0.108954    0.350182    -0.144818   0.306949    -0.216190
2   -0.379293   -0.340999   0.319142    0.024552    0.142129    0.042989    -0.60938    0.052103    -0.293400   0.162741    ... 0.108854    -0.025618   0.149078    -0.917385   0.110629    0.146427

我能用它加载吗 df = spark.read.format("csv").option("header", "true").load("file.csv") ? 我想训练一个随机森林模型。我试过研究它,但它似乎不是一个大主题。我不想在没有完全确定它是否可以工作的情况下尝试它,因为我使用的集群有很长的队列时间。

ct3nt3jp

ct3nt3jp1#

对!您还需要推断模式。

df = spark.read.format("csv").option("header", "true").option("inferSchema", "true").load("file.csv")

如果有许多文件具有相同的列名和数据类型,请保存架构以重用。

schema = df.schema

下一次当你读到一个有相同列的csv文件时,你可以

df = spark.read.format("csv").option("header", "true").option("schema", schema).load("file.csv")

相关问题