我正在研究hive中基本字数示例的扩展—特别是,提取所有n长度的子字符串(n将在执行之前确定)。
到目前为止,我所能想到的只是一个蛮力(而且是不完整的)方法(这是针对长度为2的子字符串,例如)。
CREATE TABLE lines (line STRING);
CREATE TABLE word_counts AS
SELECT regexp_extract(word, '([a-zA-Z]{2})', 1) word, count(1) AS count FROM
(SELECT explode(split(line, '\\s')) AS word FROM docs) w
GROUP BY word
ORDER BY word;
obv,这只是返回长度为2的第一个子串。regexp\u extract似乎没有返回所有匹配项的方法,而且也没有regex\u extract\u all等价物。这里有一个配置单元字符串函数列表,但我不知道如何将变量合并到这些(配置单元字符串函数)中,我看不到循环的方法,所以,我没有什么新的想法。
任何帮助都将不胜感激。
暂无答案!
目前还没有任何答案,快来回答吧!