我目前正在做一个使用hadoop的项目。我们正处于项目的开始阶段。
首先,我有大约50个关系数据库表。我们提取了它们,然后在hdfs上导出。现在,我们要将引用数据反规范化为“大表”(只有3-4个文件)。我想我会用MapReduce来做这项工作。我知道用小table怎么办,但用大table。。。。
例如,我有一个包含数百万条条目的表“ticket”,还有一个包含150亿条条目的表“lign”的join。我必须去规范化它们。
我的问题是,有什么方法可以应用或最佳实践吗?
提前谢谢你,安吉利克
我目前正在做一个使用hadoop的项目。我们正处于项目的开始阶段。
首先,我有大约50个关系数据库表。我们提取了它们,然后在hdfs上导出。现在,我们要将引用数据反规范化为“大表”(只有3-4个文件)。我想我会用MapReduce来做这项工作。我知道用小table怎么办,但用大table。。。。
例如,我有一个包含数百万条条目的表“ticket”,还有一个包含150亿条条目的表“lign”的join。我必须去规范化它们。
我的问题是,有什么方法可以应用或最佳实践吗?
提前谢谢你,安吉利克
1条答案
按热度按时间7jmck4yq1#
考虑到hadoop集群上的其他工具,编写连接以在mr中执行非规范化将是一个耗时的过程,这可能不值得付出努力。
因为已经有了表的ddl,而且数据是结构化的,所以我建议最好的方法是使用hive而不是原始的mapreduce。你会省下很多时间和麻烦。