我用的是 html2text
解析本地 .html
文件和它的工作很好。
但是,如果我跑过去 Hadoop Streaming
解析存储在 HDFS
:
hadoop jar /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/jars/hadoop-streaming-2.6.0-cdh5.8.0.jar -D mapreduce.job.reduces=0 -input /user/root/mapreduce/input2/xxx.html -output /user/root/mapreduce/output8 -mapper html2text.py
结果的第二部分 hdfs
包含预期的正确结果。但是,初始部分包含一些应该删除的元素,如下所示:
if(document.url.indexof('tv.sohu.com')<=0){删除this.rules[“sohu”];}var handler=this.animationshandler.bind(this);
document.body.addeventlistener('webkitanimationstart',handler,false);document.body.addeventlistener('msanimationstart',处理程序,
我的问题是:为什么这部分没有出现时 html2text
是否在本地模式下运行?如何移除它们?
暂无答案!
目前还没有任何答案,快来回答吧!