配置单元中的n个字母的子字符串

bxgwgixi  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(244)

我正在研究hive中基本字数示例的扩展—特别是,提取所有n长度的子字符串(n将在执行之前确定)。
到目前为止,我所能想到的只是一个蛮力(而且是不完整的)方法(这是针对长度为2的子字符串,例如)。

CREATE TABLE lines (line STRING);
 CREATE TABLE word_counts AS
  SELECT regexp_extract(word, '([a-zA-Z]{2})', 1) word, count(1) AS count FROM
   (SELECT explode(split(line, '\\s')) AS word FROM docs) w
 GROUP BY word
 ORDER BY word;

obv,这只是返回长度为2的第一个子串。regexp\u extract似乎没有返回所有匹配项的方法,而且也没有regex\u extract\u all等价物。这里有一个配置单元字符串函数列表,但我不知道如何将变量合并到这些(配置单元字符串函数)中,我看不到循环的方法,所以,我没有什么新的想法。
任何帮助都将不胜感激。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题