我对使用spark的mllibpythonapi还不熟悉。我的数据是csv格式的,如下所示:
Label 0 1 2 3 4 5 6 7 8 9 ... 758 759 760 761 762 763 764 765 766 767
0 -0.168307 -0.277797 -0.248202 -0.069546 0.176131 -0.152401 0.12664 -0.401460 0.125926 0.279061 ... -0.289871 0.207264 -0.140448 -0.426980 -0.328994 0.328007 0.486793 0.222587 0.650064 -0.513640
3 -0.313138 -0.045043 0.279587 -0.402598 -0.165238 -0.464669 0.09019 0.008703 0.074541 0.142638 ... -0.094025 0.036567 -0.059926 -0.492336 -0.006370 0.108954 0.350182 -0.144818 0.306949 -0.216190
2 -0.379293 -0.340999 0.319142 0.024552 0.142129 0.042989 -0.60938 0.052103 -0.293400 0.162741 ... 0.108854 -0.025618 0.149078 -0.917385 0.110629 0.146427
我能用它加载吗 df = spark.read.format("csv").option("header", "true").load("file.csv")
? 我想训练一个随机森林模型。我试过研究它,但它似乎不是一个大主题。我不想在没有完全确定它是否可以工作的情况下尝试它,因为我使用的集群有很长的队列时间。
1条答案
按热度按时间ct3nt3jp1#
对!您还需要推断模式。
如果有许多文件具有相同的列名和数据类型,请保存架构以重用。
下一次当你读到一个有相同列的csv文件时,你可以