我正在使用ApacheNutch2.3以及Hadoop1.2.1和hbase 0.94.14从web抓取一些数据。我已经爬网了一些数据,现在当我的爬网程序启动时,它需要太多的时间才能开始抓取。generatorjob大约需要50分钟,仅需1.5小时。这是什么问题。我想generatorjob应该占用最少的时间,而fetcher job应该占用最多的时间。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!