为什么我通过hadoop得到这个结果?

gr8qqesn  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(169)

我用的是 html2text 解析本地 .html 文件和它的工作很好。
但是,如果我跑过去 Hadoop Streaming 解析存储在 HDFS :

hadoop jar /opt/cloudera/parcels/CDH-5.8.0-1.cdh5.8.0.p0.42/jars/hadoop-streaming-2.6.0-cdh5.8.0.jar -D mapreduce.job.reduces=0  -input /user/root/mapreduce/input2/xxx.html -output /user/root/mapreduce/output8  -mapper html2text.py

结果的第二部分 hdfs 包含预期的正确结果。但是,初始部分包含一些应该删除的元素,如下所示:
if(document.url.indexof('tv.sohu.com')<=0){删除this.rules[“sohu”];}var handler=this.animationshandler.bind(this);
document.body.addeventlistener('webkitanimationstart',handler,false);document.body.addeventlistener('msanimationstart',处理程序,
我的问题是:为什么这部分没有出现时 html2text 是否在本地模式下运行?如何移除它们?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题