学习使用类似perl的正则表达式

uurity8g 于 2021-06-02 发布在 Hadoop

关注(0)|答案(2)|浏览(309)

有没有一种方法可以从Pig拉丁语的文件中提取某些单词，例如：我想要一个包含tweets的大文件中的所有单词，这些单词的开头都有一个ţ。

Input :  What a lovely day! #Sunshine
Output : Sunshine

hadoop apache-pig latin

来源：https://stackoverflow.com/questions/23821038/learning-to-use-perl-like-regular-expressions-in-pig-latin

2条答案

按热度按时间

看看regex\u摘录：http://pig.apache.org/docs/r0.12.1/func.html#regex-提取
这应该是有效的（从你的#字段中提取最后一个前面有#的单词）：

REGEX_EXTRACT(your_field, '.*#(\\w+)($|\\s.*)', 1)

赞(0）回复(0）举报 2021-06-03

好的，使用filter对我有用：startswithhash=filter<>by<>匹配'#.*'；

赞(0）回复(0）举报 2021-06-03

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 4个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 4个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 4个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 4个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 4个月前