用apachenutch抓取视频

tvokkenx  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(390)

如何使用apache nutch获取这样的视频标签:

<video width="320" height="240" controls>
  <source src="video/video.mp4" type="video/mp4">
  <source src="video/video.ogg" type="video/ogg">
  Your browser does not support the video tag.
</video>

ApacheNutch可以获取图像标签,但在视频源中不起作用。有人能给我指点一下吗?
谢谢你的帮助

q8l4jmvw

q8l4jmvw1#

我已经通过在plugin parse html(domcontentutils.java)上添加source标记解决了这个问题

linkParams.put("frame", new LinkParams("frame", "src", 0));
linkParams.put("iframe", new LinkParams("iframe", "src", 0));
linkParams.put("script", new LinkParams("script", "src", 0));
linkParams.put("link", new LinkParams("link", "href", 0));
linkParams.put("img", new LinkParams("img", "src", 0));
linkParams.put("source", new LinkParams("source", "src", 0))

然后用蚂蚁重建。
希望对其他人有帮助

vsikbqxv

vsikbqxv2#

您需要将其插入parse-plugins.xml中。

<mimeType name="video/mp4">
    <plugin id="parse-tika" />
</mimeType>

<mimeType name="video/ogg">
    <plugin id="parse-tika" />
</mimeType>

并在plugin includes属性nutch-site.xml中添加parse tika。

<property>
        <name>plugin.includes</name>
        <value>protocol-http|urlfilter-regex|parse-(text|html|tika)|index-(basic|anchor)|query-(basic|site|url)|response-(json|xml)|summary-basic|urlnormalizer-(pass|regex|basic)</value>

    </property>

相关问题