我使用级联转换文本分隔成Parquet和avro文件。我不能像avro那样为parquet元数据中的列提供描述。当任何人使用数据集来获取关于数据集本身中字段的一些描述时,这将很有帮助。
下面是Parquet地板模式:
message LaunchApplication {
required int field1;
required binary field2;
optional binary field3;
required binary field4;
}
以下是avro模式:
{ "type":"record", "name":"CascadingAvroSchema", "namespace":"", "fields":[
{"name":"field1","type":"int","doc":"10,NOT NULL, KeyField"},
{"name":"field2","type":"string","doc":"5,NOT NULL, FLAG, Indicator},
{"name":"field3","type":["null","string"],"doc":"20,NULL, System Field."},
{"name":"field4","type":"string","doc":"20,NOT NULL,MM/DD/YYYY,Record Changed Date."} ]
}
如何在parquet中跟踪avro文件中的“doc”部分?
1条答案
按热度按时间r6vfmomb1#
实际上,parquet也支持avro模式。如果使用avro模式,parquet将从中推断出parquet模式,并将avro模式存储在元数据中。