bigdata使用flume实时数据流

1tuwyuhd  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(414)

我正在尝试使用flume分析twitter数据我在biginsights中使用flume从twitter获得了文件,但我收到的数据是压缩的avro模式,不可读。有人能告诉我一种方法,以便将该文件转换为json(可读),以便对其进行分析。
或者是否有任何方法使我接收的数据已经是json(可读)格式的。
提前谢谢。
这是我收到的数据

pxyaymoc

pxyaymoc1#

avro格式不是设计成可读的,它被设计成供程序使用。但是您有一些选项可以查看这些数据,甚至可以更好地分析这些数据。
创建配置单元表:此选项允许您使用sql查询、spark sql、spark笔记本、tableau和excel等可视化工具分析数据。表创建脚本如下所示:

  1. CREATE TABLE twitter_data
  2. ROW FORMAT
  3. SERDE 'org.apache.hadoop.hive.serde2.avro.AvroSerDe'
  4. STORED AS
  5. INPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerInputFormat'
  6. OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.avro.AvroContainerOutputFormat'
  7. TBLPROPERTIES ('avro.schema.literal'='{...

在schema literal中,您也可以定义自己的模式。
编写程序:如果您是开发人员并且希望/喜欢使用编程来处理数据,那么您可以选择多种语言来读取、解析、转换avro文件并将其写入json。

相关问题