我想将非半结构化数据(msword/pdf/json)从远程计算机传输到hadoop(可以是批处理的,可以是近实时的,但不是流式的)。我必须确保数据从远程位置快速移动到我的本地机器(在低带宽上工作)到hdfs或本地机器。例如,internet download manager有一种惊人的技术,它可以通过ftp建立多个连接,并通过更多连接利用低带宽。hadoop生态系统是否有可能提供这样一个工具来将数据摄取到hadoop中。或者任何自制的技术?哪种工具/技术更好。
uqcuzwp81#
您可以使用webhdfsapihttp://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html#document_conventions
1条答案
按热度按时间uqcuzwp81#
您可以使用webhdfsapihttp://hadoop.apache.org/docs/current/hadoop-project-dist/hadoop-hdfs/webhdfs.html#document_conventions