我在为三个较小的网站运行nutch crawler。每天我在一台机器上爬行<500k个网址。根据客户的意愿,hadoop集群不会有2台以上的机器组成的集群。只有一个服务器示例。
我知道生产中不建议使用独立和伪分布式模式,但是。。。
问题1:这些模式中哪一种是“小邪恶”—nutch是这样写的,这样就可以在一台机器上运行了。以下哪种模式适用于此场景?
问题2:目前我们在独立模式下运行hbase,有时hbase只是崩溃,日志中没有任何内容。hmaster停止,如果不修复元并修复不一致(连接被拒绝),则无法重新启动。这样的错误会是由独立模式引起的吗?
注1:我们不需要hadoop数据复制,因为URL的数量很少。
注2:我们不需要hadoop作业的并行性,因为url的数量很少
由于注1、2,我认为普通文件系统应该足够了,而hdfs是不必要的。我说得对吗?
暂无答案!
目前还没有任何答案,快来回答吧!