hive SQL RegEx组

bq3bfh9z 于 2023-10-18 发布在 Hive

关注(0)|答案(1)|浏览(185)

我在让regexp_extract与Hive一起工作时遇到了问题。问题似乎围绕着分组。我基本上是从/字符之间的URL中提取信息，我想选择的不是第一个匹配，而是第N个匹配。
URL可能看起来像：

https://stackoverflow.com/questions/dghahjsg/ahfgajhfg/shjagdhjasg/text/regex-match-all-characters-between-two-strings

我想提取text部分。
例如，我正在尝试：

regexp_extract(cs.context_page_url, '(\/.?\/)', 5)

Hive

来源：https://stackoverflow.com/questions/77301659/sql-regex-group

1条答案

按热度按时间

gzszwxb41#

您可以使用use split（），它也是基于regex的。
演示

select split(str, '/+')[6] 
from
(select 'https://stackoverflow.com/questions/dghahjsg/ahfgajhfg/shjagdhjasg/text/regex-match-all-characters-between-two-strings' str
)s

_c0
----
text

/也不是正则表达式中的特殊字符，不需要转义
/+表示一个或多个/。
如果删除+，则text的位置将是第7位，因为https:后有两个斜杠，数组索引从0开始

展开查看全部

赞(0）回复(0）举报 2023-10-18

我来回答

hive SQL RegEx组

1条答案

相关问题

热门标签

最新问答