我在让regexp_extract
与Hive一起工作时遇到了问题。问题似乎围绕着分组。我基本上是从/
字符之间的URL中提取信息,我想选择的不是第一个匹配,而是第N个匹配。
URL可能看起来像:
https://stackoverflow.com/questions/dghahjsg/ahfgajhfg/shjagdhjasg/text/regex-match-all-characters-between-two-strings
我想提取text
部分。
例如,我正在尝试:
regexp_extract(cs.context_page_url, '(\/.?\/)', 5)
1条答案
按热度按时间gzszwxb41#
您可以使用use split(),它也是基于regex的。
演示
返回:
/
也不是正则表达式中的特殊字符,不需要转义/+
表示一个或多个/
。如果删除
+
,则text
的位置将是第7位,因为https:
后有两个斜杠,数组索引从0开始