apachespark中有什么算法可以找出文本文件中的频繁模式吗。我尝试了以下示例,但最终总是出现以下错误:
org.apache.hadoop.mapred.invalidinputexception:输入路径不存在:文件:/d:/spark-1.3.1-bin-hadoop2.6/bin/data/mllib/sample\u fpgrowth.txt
有人能帮我解决这个问题吗?
import org.apache.spark.mllib.fpm.FPGrowth
val transactions = sc.textFile("...").map(_.split(" ")).cache()
val model = new FPGrowth()
model.setMinSupport(0.5)
model.setNumPartitions(10)
model.run(transactions)
model.freqItemsets.collect().foreach {
itemset => println(itemset.items.mkString("[", ",", "]") + ", " + itemset.freq)
}
2条答案
按热度按时间woobm2wo1#
我猜你在windows上运行spark。
像这样使用文件路径
注意:如有必要,请转义“\”。
eufgjt7s2#
试试这个
或
如果不起作用,则更换
/
与//