我希望根据多个json文件的键之间的关系,将大量json文件存储在s3 bucket中。每个bucket包含具有不同模式的文件。有太多的文件要用python或批处理脚本循环。
例如,如果bucket 1有schema1的文件,bucket 2有schema2的文件,我想根据下面的逻辑聚合文件: (schema1.key1 == schema2.key2 && schema2.key3 > schema1.key4)
我正在考虑spark,但找不到关于按键聚合的文档,以便进行除相等以外的比较。spark是最好的解决方案还是我应该使用更好的解决方案?
任何建议都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!