我已经在Windows8系统的Ubuntu14.04虚拟机中成功配置了Hadoop2.4。hadoop安装工作非常好,而且我可以从windows浏览器查看namenode。附图片如下:
所以,我的主机名是:ubuntu和hdfs-port:9000(如果我错了,请纠正我)。
core-site.xml:
<property>
<name>fs.defaultFS</name>
<value>hdfs://ubuntu:9000</value>
</property>
问题是从我的pentaho数据集成工具连接到hdfs时。附图片如下。pdi版本:4.4.0使用的步骤:hadoop复制文件
请帮助我使用pdi连接hdfs。我需要为此安装或更新任何jar吗??如果你需要更多的信息,请告诉我。
1条答案
按热度按时间zvms9eto1#
pdi4.4afaik不支持hadoop2.4。在任何情况下,文件中都有一个属性必须设置为使用特定的hadoop配置(您可能会在论坛中看到称为“shim”的“hadoop配置”,等等)。在data integration/plugins/pentaho big data plugin/plugin.properties文件中,有一个名为active.hadoop.configuration的属性,默认设置为“hadoop-20”,它表示apache hadoop 0.20.x发行版。您可能希望将其设置为pentaho附带的“最新”发行版,或者按照我的博客文章中的描述构建自己的垫片:
http://funpdi.blogspot.com/2013/03/pentaho-data-integration-44-and-hadoop.html
即将推出的pdi版本(5.2+)将支持包含hadoop 2.4+的供应商发行版,因此请关注pdi市场和pentaho.com:)