我应该在hadoop/hive中展平hl7数据吗？或者扩大Hive？

q8l4jmvw 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(346)

我正在处理大量以2.x格式化的hl7消息。该格式是管道分隔格式，其中每个格式大致如下（虚拟数据）：

MSH|^~\&|EPIC|EPICADT|SMS|SMSADT|199912271408|CHARRIS|ADT^A04|1817457|D|2.5|
PID||0493575^^^2^ID 1|454721||DOE^JOHN^^^^|DOE^JOHN^^^^|19480203|M||B|254 MYSTREET AVE^^MYTOWN^OH^44123^USA||(216)123-4567|||M|NON|400003403~1129086|
NK1||ROE^MARIE^^^^|SPO||(216)123-4567||EC|||||||||||||||||||||||||||
PV1||O|168 ~219~C~PMA^^^^^^^^^||||277^ALLEN MYLASTNAME^BONNIE^^^^|||||||||| ||2688684|||||||||||||||||||||||||199912271408||||||002376853

我想使用hive或类似的工具对这些数据进行大型查询/探索。我应该首先使用hparser或类似的工具将这些数据展平成更多的表格格式吗？或者，是否值得花时间扩展配置单元，以便能够通过自定义的serder或inputformat查询这个配置单元？

hadoop Hive hl7

来源：https://stackoverflow.com/questions/13591658/should-i-flatten-hl7-data-to-work-with-it-in-hadoop-hive-or-extend-hive