我想使用Hortonworks数据平台沙箱将csv数据摄取到HDFS

gcmastyq  于 2023-03-27  发布在  HDFS
关注(0)|答案(1)|浏览(202)

我想把我的web scraper结果存储在Hortonworks Data Platform Sandbox的HDFS中。它应该会自动上传到HDFS中,然后从其他参考文献中,它推荐使用NiFi,但HDP中没有Apache NiFi。我也学习了Kafka的机制,但我不知道如何将csv文件发送到Kafka Topics,因为它仍然在Ubuntu本地,而不是HDP。
我希望我可以使用程序每天都会刮的调度程序,就像Oozie一样,所以它会自动刮,并通过Hortonworks数据平台环境中的Kafka存储到HDFS。

mcvgt66p

mcvgt66p1#

Hortonworks Sandbox作为一个项目已经被放弃。Nifi被添加到HDF中,而不是HDP。
您可以在本地或Docker中运行Nifi和Kafka以及HDFS。
Nifi可以按计划读取本地文件系统中的文件。你甚至不需要Hadoop或Oozie。
但是,Kafka不适用于文件传输,并且CSV也不是推荐的格式,因此您可能希望在发送到其他地方之前使用Nifi将数据解析为JSON或Avro
你也可以使用cron + Python Beautifulsoup + kafka-python,完全不需要Nifi
不清楚你计划如何处理数据,但Elasticsearch+Kibana比HDFS更有用

相关问题