java—用hive清理大数据

ee7vknir  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(423)

我正在使用配置单元查询我拥有的数据。问题是,这些数据需要清理,它太大了,我无法尝试在我的计算机上处理它(因此使用hadoop和hive)。有没有办法让我用Hive来做这个?我研究了用户定义的函数,但我的理解是它们逐行操作,因此可能不是清理数据的最佳方式。
谢谢

62o28rlo

62o28rlo1#

您应该使用mapreduce程序清理数据。可能连一个能提高你的表现的减速机都没有。
mapreduce程序就像一个缓冲文件读取器,一次读取一行数据。您可以对每一行执行清理操作,然后将其插入配置单元表中进行查询。

cpjpxq1n

cpjpxq1n2#

what is your data size?
what is your cleaning operation?

如果您的清洁操作无法在hive的帮助下完成,那么只能使用mapreduce/pig。
如果你的问题是Hive的性能,试着优化它。
优化取决于您的清洁操作。您可以使用 distribution cache , map side joins 等。。。

相关问题