嗨,我有一个文档上传到一个名为 Data
采样线如下:
He is a good boy and but his brother is a bad boy.
He is a naughty boy.
表的架构为:
create table Data(
document_data STRING)
row format delimited
fields terminated by '\n'
stored as textfile;
我想写一个查询,只计算单词的出现次数 boy
和调皮`并输出如下:
boy 3
naughty 1
1条答案
按热度按时间bhmjp9jg1#
在这里我们将利用
LATERAL
将一行转换为多行的功能。我改编了一个版本,我发现在字计数程序在Hive。