使用hive搜索文档中特定的单词

gv8xihay  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(247)

嗨,我有一个文档上传到一个名为 Data 采样线如下:

He is a good boy and but his brother is a bad boy.
He is a naughty boy.

表的架构为:

create table Data(
    document_data STRING)
row format delimited
fields terminated by '\n'
stored as textfile;

我想写一个查询,只计算单词的出现次数 boy 和调皮`并输出如下:

boy 3
 naughty 1
bhmjp9jg

bhmjp9jg1#

在这里我们将利用 LATERAL 将一行转换为多行的功能。

SELECT
    word,
    COUNT(*)
FROM Data
WHERE
    word="boy" OR
    word="naughty"
LATERAL VIEW 
    explode(split(document_data, ' ')) lateralTable AS word GROUP BY word;

我改编了一个版本,我发现在字计数程序在Hive。

相关问题