如何动态地将数据从python发送到hadoop

v6ylcynt  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(428)

嗨,我有在10台机器上运行的python脚本,还有挖掘数据。大数据。。。我想把短语数据发送到hadoop集群。我想在digitalocean上安装cloudera和hadoop。hadoop如何总是准备好接收文件,而python脚本将发送带有json数据的post请求的信息?你能给我建议一个更好的发送数据的方法吗?谢谢你的帮助。

pwuypxnk

pwuypxnk1#

您可以考虑多种选择:
Kafka+Flume。下面是一个如何工作的示例:http://blog.cloudera.com/blog/2014/11/flafka-apache-flume-meets-apache-kafka-for-event-processing/
Kafka+Spark流。试试这个http://www.slideshare.net/rahuldausa/real-time-analytics-with-apache-kafka-and-apache-spark 还有这个http://www.michael-noll.com/blog/2014/10/01/kafka-spark-streaming-integration-example-tutorial/
一般来说,任何队列(kafka、rabbitmq、amq等)和任何能够写入hdfs的队列使用者,在最简单的情况下,每30-60秒只需要一个java应用程序轮询队列

相关问题