如何在parquet模式定义中指定列描述

kgsdhlau  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(408)

我使用级联转换文本分隔成Parquet和avro文件。我不能像avro那样为parquet元数据中的列提供描述。当任何人使用数据集来获取关于数据集本身中字段的一些描述时,这将很有帮助。
下面是Parquet地板模式:

message LaunchApplication {
   required int field1;
   required binary field2;
   optional binary field3;
   required binary field4;
 }

以下是avro模式:

{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
  {"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
  {"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
  {"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
  {"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."}  ]
}

如何在parquet中跟踪avro文件中的“doc”部分?

r6vfmomb

r6vfmomb1#

实际上,parquet也支持avro模式。如果使用avro模式,parquet将从中推断出parquet模式,并将avro模式存储在元数据中。

相关问题