我们目前正在进行一个大数据项目。
大数据平台hadoop cloudera。
输入我们的系统我们有一个小的数据流,我们收集通过Kafka(约80个月/小时连续)。
然后消息存储在hdfs中,通过impala进行查询。
我们的客户不想把热数据和冷数据分开。5分钟后,必须可以在历史数据(冷数据)中访问数据。我们选择了一个数据库。
为了插入数据,我们使用impalaapi提供的jdbc连接器(例如insert into…)。我们知道这不是推荐的解决方案,每个impala插入都会在hdfs中创建一个文件(<10kb)。
我们寻求一种解决方案,在imapala库中插入一个小流,从而避免获取许多小文件。我们预先制定了什么解决方案?
暂无答案!
目前还没有任何答案,快来回答吧!