我们需要从我们的图像捕获软件向hadoop(hortonworks)发送文档:图像捕获软件发布带有元数据的pdf文档。我对hdp不太了解。是否有任何rest服务或工具能够通过向文档提供元数据来向hadoop添加文档。请帮忙
gkn4icbw1#
hadoop hdfs有webhdfs和nfsgateway但是,如果您能够更好地控制数据如何到达hdfs,通常建议不要将原始数据立即存储到hdfs上。这样,您就可以更好地控制审核数据写入的位置和方式。例如,您可以使用apachenifi处理器启动listenhttp处理器,读取文档数据,对其进行解析、过滤和充实,然后可以选择写入hdfs或许多其他目的地。
1条答案
按热度按时间gkn4icbw1#
hadoop hdfs有webhdfs和nfsgateway
但是,如果您能够更好地控制数据如何到达hdfs,通常建议不要将原始数据立即存储到hdfs上。这样,您就可以更好地控制审核数据写入的位置和方式。
例如,您可以使用apachenifi处理器启动listenhttp处理器,读取文档数据,对其进行解析、过滤和充实,然后可以选择写入hdfs或许多其他目的地。