将nosql数据加载到spark节点

ifsvaxew  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(386)

我试图理解当我从nosql源向spark加载数据时会发生什么。它会尝试将记录加载到驱动程序中,然后将其分发到工作节点,还是同时将记录加载到所有工作节点。基本上有没有并行加载数据的方法如果有,如何确保同一条记录不被多个节点处理?如果不是并行进程,则会将相同的json写入“.json”文件帮助(前提是每行都是一条记录)

lnvxswe2

lnvxswe21#

它总是直接装到工人身上。根据数据的来源和存储方式,可以并行加载。在加载数据时,数据将被切分为不重叠的行,因此您不必担心处理同一数据两次。文件格式将不相关。您从哪个数据源加载(mongo、cassandra、hbase)?如果你告诉我源系统,我可以给出一个更好的答案。

相关问题