如何在parquet模式定义中指定列描述

kgsdhlau 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(411)

我使用级联转换文本分隔成Parquet和avro文件。我不能像avro那样为parquet元数据中的列提供描述。当任何人使用数据集来获取关于数据集本身中字段的一些描述时，这将很有帮助。
下面是Parquet地板模式：

message LaunchApplication {
   required int field1;
   required binary field2;
   optional binary field3;
   required binary field4;
 }

以下是avro模式：

{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
  {"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
  {"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
  {"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
  {"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."}  ]
}

如何在parquet中跟踪avro文件中的“doc”部分？

hadoop parquet

来源：https://stackoverflow.com/questions/34212332/how-to-specify-column-description-in-parquet-schema-definition