我有一个用例,需要用nutch定义特定域的爬行时间表。我很难弄清楚这是怎么回事。在我看来,nutch的设计方式是,它只运行一个示例,这个示例本身就可以处理大量的主机。
所以让我们假设我有三个组织,我会爬他们的网站。每个组织都有自己的一组种子、配置以及活动爬网的开始和停止时间。可以想象,这三个组织中的每一个都会有自己的爬网作业,这些作业会根据组织定义的时间表启动。因此,两个或多个作业可能同时运行。这是可以设置的吗?
我有一个用例,需要用nutch定义特定域的爬行时间表。我很难弄清楚这是怎么回事。在我看来,nutch的设计方式是,它只运行一个示例,这个示例本身就可以处理大量的主机。
所以让我们假设我有三个组织,我会爬他们的网站。每个组织都有自己的一组种子、配置以及活动爬网的开始和停止时间。可以想象,这三个组织中的每一个都会有自己的爬网作业,这些作业会根据组织定义的时间表启动。因此,两个或多个作业可能同时运行。这是可以设置的吗?
暂无答案!
目前还没有任何答案,快来回答吧!