sqoop和pig/hive/mr

yvt65v4c  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(337)

源数据库有一个包含许多列的表,其中一列是包含xml的clob。
需求是将这个表sqoop到hdfs中,并将这些原始数据分解成多个文件。可能必须在这些文件上创建配置单元表。
我正在努力了解性能等方面的最佳解决方案,以达到同样的效果。我缩小了以下选项的范围
mr作业读取xml列(使用xpath或一些xml解析fw)和其他列,并根据需要存储到多个文件中。
使用自定义项
使用xmlserde(com.ibm.spss。。。。( Package )
问题1。对这些选项和其他选项有什么想法会有帮助吗?
对于选项2,我不认为可以使用xmloader,因为它期望底层文件包含xml而不是其他列。
问题2。我就在这里吗?
问题3。即使只是xml,我能在同一个文件中处理多个xml(尽管结构相同)吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题