我试图理解spark在编写输出文件时使用的命名方案。例如,我有以下输出:
2019-11-21 04:41:57 478988224 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
2019-11-21 04:41:57 369488615 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c001.snappy.parquet
2019-11-21 04:41:57 61498975 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c002.snappy.parquet
2019-11-21 04:41:57 478216284 part-00001-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
2019-11-21 04:41:57 367980988 part-00001-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c001.snappy.parquet
如果我们考虑单个文件名 part-00000-a0d2c1f3-9e8b-48ca-b347-7065e1f2de3c-c000.snappy.parquet
它具有以下命名方案: part-<part-number>-<uid>-<c-part>.<compression>.<format>
在哪里 uid
从哪个地方拿走的?是任务id还是类似的?是什么 c-part
什么意思?命名方案是否根据所使用的名称而改变 mapreduce.fileoutputcommitter.algorithm.version"
?
暂无答案!
目前还没有任何答案,快来回答吧!