我目前正在开发一个web应用程序。这种要求类似于用户上传excel或csv文件,其中包含来自前端框架的大型数据集。
一旦上传,数据将根据许多参数进行处理,如重复检查、单个字段验证等。用户应能够立即以新生成的csv文件的形式下载基于过滤器的结果。
我使用的技术是hbase来存储诸如姓名、电子邮件等用户信息。一旦用户上传了数据,它将在hdfs中存储和处理。我用sparkjavaweb框架编写的后端。现在我使用的数据处理引擎是mapreduce。
对于mapreduce,我已经用java编写了多个mapper、reducer和驱动程序类,它们位于同一个项目目录中,但问题是我无法将mapreduce与后端集成。一旦上传了数据,mapreduce程序就会运行。我不能那样做。
有人能给我一些建议吗。我是hadoop新手,所以如果我做错了什么,请告诉我,并建议一个更好的替代方案。任何帮助都会很棒。谢谢您。
暂无答案!
目前还没有任何答案,快来回答吧!