关闭。这个问题是基于意见的。它目前不接受答案。
**想改进这个问题吗?**更新这个问题,这样就可以通过编辑这篇文章用事实和引文来回答。
6年前关门了。
改进这个问题
我是hadoop工程师,主要对机器学习和数据挖掘感兴趣。有了数据局部性利用和spark(尤其是mllib)等现代工具,分析数兆字节的数据变得简单而愉快。到目前为止,我正在使用pythonapi来spark(pyspark),并且对它非常满意。
然而最近科学计算领域出现了一个新的强有力的角色——朱莉娅。有了jit编译和内置的并行性(除其他外),它可能成为传统工具的有力竞争者。所以我很感兴趣,如果我在某个时候切换到julia,那么在现有hadoop堆栈上使用它的选项是什么?是否有任何绑定或桥允许运行julia脚本并仍然使用hdfs的数据位置?
编辑。明确地说:我不是在问什么工具是最好的,不是在比较julia(或hadoop)和其他工具,也不是在推广任何计算堆栈。我的问题是关于可能有助于整合两种技术的项目。没有意见,没有长期的审议-只是项目和简短的描述链接。
1条答案
按热度按时间v7pvogib1#
elly.jl是“hadoop hdfs和yarn客户端”
spark实施的开始:https://github.com/d9w/spark.jl
edit:我还应该指出javacall包,它可能允许在这个领域利用现有的java库。https://github.com/aviks/javacall.jl
(编辑:最初链接到一个现已弃用的hdfs绑定项目,也是由elly开发人员:https://github.com/tanmaykm/hdfs.jl)