如何使用parquet mr读取包含日志结构数据的parquet文件

gblwokeq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(280)

在我们的存储层中,我们添加json文档并以日志结构的方式(通过parquet cpp和我们的dremel paper实现)以parquet格式存储它们,以提高写入效率。这意味着两个或多个Parquet文件中的单个documentid(documentid是列属性之一)可以有多个行条目。documentid应该是唯一的/主键。我打算通过Parquet配置单元存储处理程序以及sparksql来读取这些Parquet文件。我的问题是,有没有已知的方法来处理日志结构的Parquet地板数据?或者我需要修改Parquetmr实现来做同样的事情。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题