值错误：RDD为空-- Pyspark(Windows独立版)

kxxlusnw 于 2022-12-17 发布在 Spark

关注(0)|答案(2)|浏览(125)

我试图创建一个RDD，但Spark没有创建它，抛出错误，粘贴如下;

data = records.map(lambda r: LabeledPoint(extract_label(r), extract_features(r)))
first_point = data.first()

Py4JJavaError                             Traceback (most recent call last)
<ipython-input-19-d713906000f8> in <module>()
----> 1 first_point = data.first()
  2 print "Raw data: " + str(first[2:])
  3 print "Label: " + str(first_point.label)
  4 print "Linear Model feature vector:\n" + str(first_point.features)
  5 print "Linear Model feature vector length: " + str(len    (first_point.features))

C:\spark\python\pyspark\rdd.pyc in first(self)
1313         ValueError: RDD is empty
1314         """
-> 1315         rs = self.take(1)
1316         if rs:
1317             return rs[0]

C:\spark\python\pyspark\rdd.pyc in take(self, num)
 1295 
 1296             p = range(partsScanned, min(partsScanned + numPartsToTry, totalParts))
-> 1297             res = self.context.runJob(self, takeUpToNumLeft, p)..................

任何帮助都将不胜感激。
谢谢你，英诺森

pyspark

来源：https://stackoverflow.com/questions/39279702/valueerror-rdd-is-empty-pyspark-windows-standalone

2条答案

按热度按时间

oug3syen1#

您的records为空。您可以通过调用records.first()进行验证。
在空RDD上调用first会引发错误，但不会引发collect。

records = sc.parallelize([])

records.map(lambda x: x).collect()

[]

records.map(lambda x: x).first()

值错误：RDD为空

赞(0）回复(0）举报 2022-12-17

rta7y2nd2#

我也遇到过这个问题，使用FIRST（）操作方法，我检查并发现RDD是空的，因此我遇到了这个问题。确保RDD至少有一个记录要处理。

赞(0）回复(0）举报 2022-12-17

我来回答

值错误：RDD为空-- Pyspark(Windows独立版)

2条答案

相关问题

热门标签

最新问答