多个spark应用程序中的数据共享

axr492tv  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(236)

提前谢谢。
我需要在spark应用程序上工作,其中一个spark作业将创建或准备数据,并且这些数据将在并行运行的多个spark作业之间共享。
我试图找到解决这个问题的方法,但是我遇到了apacheignite,要求使用内存hdfs(cachehdfs)而不是ignite。
我试图在hadoop中获得有关分布式缓存和集中式缓存管理的详细信息。distributedcache现在已被弃用,主要用于mapreduce作业,方法是使用job.addcachefile()或类似的方法。集中式缓存管理需要在hdfs-size.xml中进行额外配置。
如何使用spark的hdfs内存缓存,spark是否提供了任何api,其中一个spark作业可以将文件放置在hdfs的分布式缓存中,而其他spark作业可以使用它。
你的回答对我很有帮助。
谢谢,
阿维纳什·德什穆克

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题