我是新来的Hive,有一些东西来解析日志的格式
[Time Stamp] {Complex JSON data}
从我到目前为止的搜索中可以看到,有json-serde可用。我可以扩展那些json-serde代码来满足我的需要吗?如果是这样的话,选择哪个json serde代码更好?如果这个方法不好,还有其他的指针吗?谢谢
xpszyzbs1#
而不是使用任何其他开源serde,我发现自己写serde要简单得多。除了锅炉板代码之外,我只需要用反序列化方法编写我的业务逻辑,这非常有效。这个链接非常有用。http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/另外,我尝试了udtf,它工作得很顺利,发现serde要快得多。希望这对别人有帮助
1条答案
按热度按时间xpszyzbs1#
而不是使用任何其他开源serde,
我发现自己写serde要简单得多。除了锅炉板代码之外,我只需要用反序列化方法编写我的业务逻辑,这非常有效。
这个链接非常有用。http://blog.cloudera.com/blog/2012/12/how-to-use-a-serde-in-apache-hive/
另外,我尝试了udtf,它工作得很顺利,发现serde要快得多。
希望这对别人有帮助