hadoop—通过独特的技术将数据摄取到hdfs中

lvmkulzt  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(366)

我想将非半结构化数据(msword/pdf/json)从远程计算机传输到hadoop(可以是批处理的,可以是近实时的,但不是流式的)。
我必须确保数据从远程位置快速移动到我的本地机器(在低带宽上工作)到hdfs或本地机器。例如,internet download manager有一种惊人的技术,它可以通过ftp建立多个连接,并通过更多连接利用低带宽。
hadoop生态系统是否有可能提供这样一个工具来将数据摄取到hadoop中。或者任何自制的技术?
哪种工具/技术更好。

uqcuzwp8

uqcuzwp81#

您可以使用webhdfsapihttp://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html#document_conventions

相关问题