何时将数据移动到hdfs/hive?

wztqucjr  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(421)

因此,我正在开发一个应用程序,希望它能够处理大量的数据,因此我决定使用hadoop来处理它。
我的服务节点和数据节点与webapp分离,因此我使用httpfs与hadoop通信。
因此,每当在我的应用程序中生成新行数据时,我是否应该调用相应的httpfs url将数据附加到hdfs文件中?我是否应该将这些数据写入web服务器中的一个文件中,并使用cronjob将其上传到hdfs(例如每小时一次)?我应该更新配置单元表,还是在需要查询时直接将数据加载到其中?
我对hadoop还很陌生,所以任何有帮助的链接都会很有用。

zynd9foi

zynd9foi1#

我喜欢下面的方法。
不要调用htpfs url为每一行更新向hdsf文件追加数据。当数据文件大小超过128MB(在Hadoop2.x中)或64MB(在Hadoop1.x中)时,hdfs是有效的
将数据写入web服务器。当文件大小达到一定的限制时有一个滚动追加器-以128MB的倍数为单位,例如1GB文件。
您可以每小时进行一次cron作业,但要确保发送的是大数据文件(例如1 gb或128 mb的倍数),而不是只发送1小时内累积的日志文件。
关于数据加载,可以使用内部或外部配置单元表。看看这篇文章

相关问题