远程使用hadoop集群

wb1gzix0  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(401)

我有一个web应用程序和一个远程集群(可以是一个或多个)。这些群集可以在不同的计算机上。我想从我的web应用程序执行以下操作:
1 hdfs行动:
创建新目录
从hdfs(hadoop分布式文件系统)删除文件
列出hdfs上存在的文件
将文件加载到hdfs
卸载文件
2工作相关actions:-
提交Map缩减作业
查看他们的状态,即完成了多少工作
完成工作所花费的时间
我需要一个工具,可以帮助我从web应用程序执行这些任务-通过api,通过rest调用等。我假设该工具将运行在同一台机器(作为web应用程序)上,并可以指向一个特定的远程集群。
尽管作为最后一个选择(因为可以有多个不同的集群,很难确保每个集群都安装了插件、库等),我想知道是否会有一些hadoop库、插件依赖于集群,允许从远程机器访问并执行上述任务。

5fjcxozz

5fjcxozz1#

支持这里列出的所有内容的最佳框架是spring数据—ApacheHadoop。它有基于java脚本api的实现来执行以下操作

1 HDFS Actions :-

Create New Directory
Remove files from HDFS(Hadoop Distributed File System)
List Files present on HDFS
Load File onto the HDFS
Unload File

以及基于spring调度的实现

2 Job Related Actions:-

Submit Map Reduce Jobs
View their status i.e. how much job has comleted
Time taken by the job to finish

相关问题