配置单元中的标记化函数

huwehgph  于 2021-06-26  发布在  Hive
关注(0)|答案(2)|浏览(408)

我试图遵循这个例子,其中术语频率和逆文档频率是在hive:httpshttp://github.com/myui/hivemall/wiki/tfidf-calculation
我有一个名为pigouthutive的表,其中有以下字段:

“body”列包含由空格分隔的字符串[a-z a-z&0-9]。
我想对body进行标记,以便生成一个与owneruserid和body元组的关系,以便执行tf-idf算法。
我收到一个与tokenize函数相关的错误,有人能告诉我哪里出错了吗?
我的错误如下:编译语句时出错:failed:semanticexception[error 10011]:行8:37无效函数“tokenize”[error\u status]

create or replace view pigoutputhive_exploded
as
select
owneruserid, 
body,
score
from
pigoutputhive LATERAL VIEW explode(tokenize(body,true)) t as word
where
not is_stopword(word);
7rfyedvj

7rfyedvj1#

tokenize在配置单元中不起作用,必须使用语句()函数。

w3nuxt5m

w3nuxt5m2#

tokenize函数是hive的一个hivemall扩展。
所以,你需要先安装hivemall。
有关将hivemall函数加载到配置单元的信息,请参见下一页。https://github.com/myui/hivemall/wiki/installation

相关问题