我正在尝试用sparksql运行tpcds基准测试。
在文档中,他们讨论了星型模式和表的数量。
根据我对hadoop的理解,最好是使用非规范化的数据,然后您可以像paraquet那样格式化数据,这在压缩方面很好(使用分区实现并行性)
我还从sas找到了此文档->https://support.sas.com/resources/papers/data-modeling-hadoop.pdf
它也在同一个术语中讨论。我不是数据仓库Maven,所以我请求帮助我理解如何在hadoop中为数据仓库建模
我正在尝试用sparksql运行tpcds基准测试。
在文档中,他们讨论了星型模式和表的数量。
根据我对hadoop的理解,最好是使用非规范化的数据,然后您可以像paraquet那样格式化数据,这在压缩方面很好(使用分区实现并行性)
我还从sas找到了此文档->https://support.sas.com/resources/papers/data-modeling-hadoop.pdf
它也在同一个术语中讨论。我不是数据仓库Maven,所以我请求帮助我理解如何在hadoop中为数据仓库建模
暂无答案!
目前还没有任何答案,快来回答吧!