我正在阅读s3(minio)对象并试图将其转换为pysparkDataframe。我在试这个。
import boto3
from botocore.client import Config
s3 = boto3.client('s3',endpoint_url='Endpoint URL',aws_access_key_id='key',aws_secret_access_key='secret key',config=Config(signature_version='s3v4'),region_name='us-east-1')
obj = s3.get_object(Bucket='bucket_name', Key='file_name')
df = spark.read.option('header','true').option('inferSchema','true').csv(io.BytesIO(obj['Body'].read()))
但是我得到了下面的错误-
df = spark.read.option('header','true').option('inferSchema','true').csv(io.BytesIO(obj['Body'].read()))
'TypeError: path can be only string, list or RDD\n'])
同样的代码对于读取python3dataframe很好,但是对于pyspark dataframe却不起作用-
df = pd.read_csv(io.BytesIO(obj['Body'].read()))
请帮忙
暂无答案!
目前还没有任何答案,快来回答吧!