我知道我们可以使用gluecontext动态帧从dynamodb读取数据,使用它会消耗更多的读取时间。考虑下面的示例从s3读取相同的数据
USING SPARK DATAFRAME FRAME
spark.read.format("CSV").option("header":"true").load("S3///")
reads data in 0 to 30 seconds
鉴于
USING GLUE DYNAMIC
glueContext.create_dynamic_frame.from_catalog()
OR
glueContext.create_dyanmic_frame.from_options()
reads data in 5 to 10 minutes
那么,有没有一种方法可以使用pysparkDataframe从dynamobd读取数据呢?
经过一番研究**
https://github.com/audienceproject/spark-dynamodb
使用上述连接器,能够读取和显示本地机器的数据。
因为aws glue使用的是spark2.4,所以下载了spark-dynamidb_2.11-1.0.3.jar并上传到s3,并在python库路径中提到了s3uri。
运行作业时,其抛出o.88.showstring.com.audienceproject.spark.dynamodb.datasource.scanpartition
你知道怎么用aws胶水吗?
暂无答案!
目前还没有任何答案,快来回答吧!