hadoop拆分/regex

qcbq4gxm 于 2021-06-01 发布在 Hadoop

关注(0)|答案(1)|浏览(335)

我有如下数据：

Boston--Age:--Gender:--Favorite_Fruit:APPLE--Favorite_Veggie:GREEN BEANS--Blood_Type:AB

我想拆分数据以获取“最喜爱的蔬菜”下的数据，而不包含血型数据：

split('Boston--Age:--Gender:--Favorite_Fruit:APPLE--Favorite_Veggie:GREEN 
 BEANS--Blood_Type:AB', 'Favorite_Veggie\\:')[1]

电流输出：

GREEN BEANS--Blood_Type:AB

理想输出：

GREEN BEANS

1条答案

你最好用 REGEX_EXTRACT :

data = 'Boston--Age:--Gender:--Favorite_Fruit:APPLE--Favorite_Veggie:GREEN BEANS--Blood_Type:AB'

REGEX_EXTRACT(data, 'Favorite_Veggie:([^-]*)', 1)

如果你想独占 SPLIT ，然后再次拆分第一个结果字符串：

SPLIT(result, '--')[1]