我需要从位于我的UNIX服务器中的csv文件创建Spark Dataframe 。
我试着像下面一样,
from pyspark.sql import SparkSession
spark = SparkSession.builder.master("local").appName("demo").getOrCreate()
df = spark.read.format('csv').option('header','True'). \
load("ftp://USER:PASSWORD@UNIX_IP/home/user/sample.csv")
df.show(10)
但它抛出的错误为,
异常错误:java.net.URISyntaxException:索引32处的用户信息中存在非法字符**
有人能帮我解决这个问题吗?我们需要如何引用pyspark中的ftp位置?我们需要为此包含任何其他库吗?
1条答案
按热度按时间krugob8w1#
您需要像这样使用
addFile
方法:要测试它,您可以使用如下公共ftp:
Python皮: