我希望从pysparkDataframe中的一列xml数据(string)中提取一个字符串。我想为每个客户提取产品名称的价值。
以下是数据示例:
Customer, Product
A, <XmlData ProductName="123">....</XmlData><XmlData ProductName="1452">....</XmlData>
B, <XmlData ProductName="123">....</XmlData>
C, <XmlData ProductName="123">....</XmlData><XmlData ProductName="1452">....</XmlData><XmlData ProductName="893">....</XmlData><XmlData ProductName="3453">....</XmlData>
我想将我的数据框转换为包含一列,该列包含如下所示的已提取产品名称列表:
Customer, ProductName
A, 123;1452
B, 123
C, 123;1452;893;3453
3条答案
按热度按时间gg58donl1#
创建一个简单的自定义项
l0oc07j22#
如果您的xml结构是静态的,只需将周围的xml字符串替换为“;”(使用replace或regexp\u replace),保留值,并使用结果创建一个新列(withcolumn方法)。
q3aa05253#
在斯卡拉-