有没有一种方法可以将unix命令转换为map reduce活动?

qoefvg9y  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(307)

我正在尝试在配置单元查询中获取unix输出。例如,以下查询不起作用:

select transform ('') 
using 'pwd' 
as syspath

但这个查询是有效的:

select transform ('') 
using 'hive -e "select 10 as col1"' 
as col1

如何将unix命令或bash脚本作为map reduce作业启用,以使其输出在配置单元中可用?
提前谢谢!

kyxcudwk

kyxcudwk1#

计算文件中的字符数
你为什么要用Hive呢?Spark是如此灵活。

val charCount = spark.read.textLines("path/to/file.txt")
    .flatMap(line => line.toList())
    .map(char => (char, 1)) // This is literally just wordcount, now
    .reduceByKey(_ + _)
    .map((char, count) => count)
    .sum() // something like this ... 
println(charCount.collect()(0))

相关问题