hadoop与文档捕获软件的集成

htzpubme  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(271)

我们需要从我们的图像捕获软件向hadoop(hortonworks)发送文档:图像捕获软件发布带有元数据的pdf文档。我对hdp不太了解。是否有任何rest服务或工具能够通过向文档提供元数据来向hadoop添加文档。
请帮忙

gkn4icbw

gkn4icbw1#

hadoop hdfs有webhdfs和nfsgateway
但是,如果您能够更好地控制数据如何到达hdfs,通常建议不要将原始数据立即存储到hdfs上。这样,您就可以更好地控制审核数据写入的位置和方式。
例如,您可以使用apachenifi处理器启动listenhttp处理器,读取文档数据,对其进行解析、过滤和充实,然后可以选择写入hdfs或许多其他目的地。

相关问题