我已经将apachespark独立集群配置为两个ubuntu14.04虚拟机。其中一个vm(即主vm)和另一个vm(即worker vm)都使用此处描述的无密码ssh连接。
在从master启动之后,我通过spark主目录中的以下命令启动了master和worker-
sbin/start-all.sh
然后我从master和wokervms运行以下命令。
jps
它显示在主虚拟机中-
6047 jps
6048 Master
并进入worker vm-
6046 jps
6045 Worker
似乎主进程和工作进程运行正常,而且在web ui中,没有发生错误。但是当我尝试使用以下命令运行应用程序时-
spark-1.6.0/bin/spark-submit spark.py
它在控制台中发出警告消息-
TaskSchedulerImpl: Initial job has not accepted any resources; check your cluster UI to ensure that workers are registered and have sufficient resources
这是我的考试申请表-
from pyspark import SparkConf, SparkContext
from pyspark.sql import SQLContext
conf =SparkConf().setMaster('spark://SparkMaster:7077').setAppName("My_App")
sc = SparkContext(conf=conf)
SQLCtx = SQLContext(sc)
list_of_list = sc.textFile("ver1_sample.csv").map(lambda line: line.split(",")).collect()
print("type_of_list_of_list===========",type(list_of_list), list_of_list)
因为我对apachespark还不熟悉。请帮忙。
1条答案
按热度按时间f4t66c6m1#
问题可能与资源(内存/内核)可用性有关。默认情况下,spark从spark-defaults.conf获取默认值。
尝试使用