预期输出为: (Hadoop definitive guide,Tom white,24.90)
.
我试过使用 Regex_Extract()
功能。但是,还没有运气。有人能帮帮我吗?
我的脚本的输入是:
<CATALOG>
<BOOK>
<TITLE>Hadoop DEFINITIVE GUIDE</TITLE>
<AUTHOR>TOM WHITE</AUTHOR>
<COUNTRY>US</COUNTRY>
<COMPANY>CLOUDERA</COMPANY>
<PRICE>24.90</PRICE>
<YEAR>2012</YEAR>
</BOOK>
<BOOK>
<TITLE>Programming Pig</TITLE>
<AUTHOR>Alan Gates</AUTHOR>
<COUNTRY>USA</COUNTRY>
<COMPANY>Horton Works</COMPANY>
<PRICE>30.90</PRICE>
<YEAR>2013</YEAR>
</BOOK>
</CATALOG>
1条答案
按热度按时间qv7cva1a1#
你必须提取
<TITLE>
,<AUTHOR>
以及<PRICE>
分开,然后用JOIN
接线员。下面的脚本实现了:
对于问题中提到的输入,我得到了以下输出: