在我的项目中,stormcrawler maven原型似乎不能很好地处理warc模块。目前,它只创建名称为“crawl-20180802121925-00000.warc.gz”的空0字节文件。我是不是漏了什么?
我尝试通过创建一个默认项目来启用warc编写,如下所示:
mvn archetype:generate -DarchetypeGroupId=com.digitalpebble.stormcrawler -DarchetypeArtifactId=storm-crawler-archetype -DarchetypeVersion=1.10
然后将依赖关系添加到pom.xml中的warc模块,如下所示
<dependency>
<groupId>com.digitalpebble.stormcrawler</groupId>
<artifactId>storm-crawler-warc</artifactId>
<version>1.10</version>
</dependency>
然后我将warchdfsbolt添加到fetch分组中,同时尝试写入本地文件系统目录。
public class CrawlTopology extends ConfigurableTopology {
public static void main(String[] args) throws Exception {
ConfigurableTopology.start(new CrawlTopology(), args);
}
@Override
protected int run(String[] args) {
TopologyBuilder builder = new TopologyBuilder();
String[] testURLs = new String[] { "http://www.lequipe.fr/",
"http://www.lemonde.fr/", "http://www.bbc.co.uk/",
"http://storm.apache.org/", "http://digitalpebble.com/" };
builder.setSpout("spout", new MemorySpout(testURLs));
builder.setBolt("partitioner", new URLPartitionerBolt())
.shuffleGrouping("spout");
builder.setBolt("fetch", new FetcherBolt())
.fieldsGrouping("partitioner", new Fields("key"));
builder.setBolt("warc", getWarcBolt())
.localOrShuffleGrouping("fetch");
builder.setBolt("sitemap", new SiteMapParserBolt())
.localOrShuffleGrouping("fetch");
builder.setBolt("feeds", new FeedParserBolt())
.localOrShuffleGrouping("sitemap");
builder.setBolt("parse", new JSoupParserBolt())
.localOrShuffleGrouping("feeds");
builder.setBolt("index", new StdOutIndexer())
.localOrShuffleGrouping("parse");
Fields furl = new Fields("url");
// can also use MemoryStatusUpdater for simple recursive crawls
builder.setBolt("status", new StdOutStatusUpdater())
.fieldsGrouping("fetch", Constants.StatusStreamName, furl)
.fieldsGrouping("sitemap", Constants.StatusStreamName, furl)
.fieldsGrouping("feeds", Constants.StatusStreamName, furl)
.fieldsGrouping("parse", Constants.StatusStreamName, furl)
.fieldsGrouping("index", Constants.StatusStreamName, furl);
return submit("crawl", conf, builder);
}
private WARCHdfsBolt getWarcBolt() {
String warcFilePath = "/Users/user/Documents/workspace/test/warc";
FileNameFormat fileNameFormat = new WARCFileNameFormat()
.withPath(warcFilePath);
Map<String,String> fields = new HashMap<>();
fields.put("software:", "StormCrawler 1.0 http://stormcrawler.net/");
fields.put("conformsTo:", "http://www.archive.org/documents/WarcFileFormat-1.0.html");
WARCHdfsBolt warcbolt = (WARCHdfsBolt) new WARCHdfsBolt()
.withFileNameFormat(fileNameFormat);
warcbolt.withHeader(fields);
// can specify the filesystem - will use the local FS by default
// String fsURL = "hdfs://localhost:9000";
// warcbolt.withFsUrl(fsURL);
// a custom max length can be specified - 1 GB will be used as a default
FileSizeRotationPolicy rotpol = new FileSizeRotationPolicy(50.0f,
FileSizeRotationPolicy.Units.MB);
warcbolt.withRotationPolicy(rotpol);
return warcbolt;
}
}
不管我在本地运行它有没有通量,似乎都没有什么区别。您可以在此处查看演示回购:https://github.com/keyboardsamurai/storm-test-warc
1条答案
按热度按时间oxalkeyp1#
谢谢你问这个。理论上,当
在sync策略中有一个显式的sync,默认情况下是10个元组
默认情况下,每15秒就有一个自动的滴答元组
文件是旋转的-在您的情况下,这应该发生在内容达到50mb时
由于作为起点使用的拓扑不是递归的,并且不处理5个以上的URL,因此从不满足条件1和3。
你可以通过使用
相反。这样,新的网址将不断处理。或者,您可以添加
以便在每个元组之后触发同步。实际上,在一个URL不断出现的真正的爬网中,您不需要这样做。
现在奇怪的是,不管同步是由条件1还是条件2触发的,我都看不到对文件的任何更改,它仍然是0字节。版本1.8并非如此
所以这可能是因为在那之后代码发生了变化。
我知道有些用户一直依赖filetimesizerotationpolicy,它可以根据时间触发上面的条件3。
请随意在github上打开一个问题,我会仔细研究它(当我下个月回来的时候)。
编辑:有一个错误与压缩的条目,现在已经被修复,并将成为下一个sc版本的一部分。
请看评论对这个问题的善意张贴的op。