我有一个Dataframe在下面的格式与2个字段。其中一个字段包含代码,另一个字段包含xml。
EventCd|XML_VALUE
1.3.6.10|<nt:SNMP>
<nt:var id="1.3.0" type="STRING"> MESSAGE </nt:var>
<nt:var id="1.3.9" type="STRING">AB-CD-EF</nt:var>
</nt:SNMP>
1.3.6.11|<nt:SNMP>
<nt:var id="1.3.1" type="STRING"> CALL </nt:var>
<nt:var id="1.3.2" type="STRING">XX-AC-EF</nt:var>
</nt:SNMPe
基于代码字段中的值,我希望有条件地创建不同的Dataframe,并将数据放在相应的hdfs文件夹中。
如果代码是1.3.6.10,它应该创建message dataframe并将文件放在../message/hdfs文件夹下;如果代码是1.3.6.11,它应该创建call dataframe并将数据写入call hdfs文件夹,如../call/
我可以使用多个过滤器选项创建Dataframe,但是否有任何选项只调用一个Dataframe和相应的hdfs write命令。
有人能建议我如何在spark/scala中这样做吗。
暂无答案!
目前还没有任何答案,快来回答吧!