我正在尝试使用flume分析twitter数据我在biginsights中使用flume从twitter获得了文件,但我收到的数据是压缩的avro模式,不可读。有人能告诉我一种方法,以便将该文件转换为json(可读),以便对其进行分析。或者是否有任何方法使我接收的数据已经是json(可读)格式的。提前谢谢。这是我收到的数据
pxyaymoc1#
avro格式不是设计成可读的,它被设计成供程序使用。但是您有一些选项可以查看这些数据,甚至可以更好地分析这些数据。创建配置单元表:此选项允许您使用sql查询、spark sql、spark笔记本、tableau和excel等可视化工具分析数据。表创建脚本如下所示:
CREATE TABLE twitter_dataROW FORMATSERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'STORED ASINPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'TBLPROPERTIES ('avro.schema.literal'='{...
CREATE TABLE twitter_data
ROW FORMAT
SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
STORED AS
INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
TBLPROPERTIES ('avro.schema.literal'='{...
在schema literal中,您也可以定义自己的模式。编写程序:如果您是开发人员并且希望/喜欢使用编程来处理数据,那么您可以选择多种语言来读取、解析、转换avro文件并将其写入json。
1条答案
按热度按时间pxyaymoc1#
avro格式不是设计成可读的,它被设计成供程序使用。但是您有一些选项可以查看这些数据,甚至可以更好地分析这些数据。
创建配置单元表:此选项允许您使用sql查询、spark sql、spark笔记本、tableau和excel等可视化工具分析数据。表创建脚本如下所示:
在schema literal中,您也可以定义自己的模式。
编写程序:如果您是开发人员并且希望/喜欢使用编程来处理数据,那么您可以选择多种语言来读取、解析、转换avro文件并将其写入json。