我正在avro中设计一个模式,它最终将成为hive查询的parquet文件的模式。
有几个示例中,我将嵌套列作为类型数组,父记录可能有零个或多个。举个更具体的例子,假设我有一个person记录,有一个children字段。一个人可以有零个或多个孩子。
关于children字段应该是一个可以包含零项的数组,还是应该定义为[null,array]的并集,有没有说服力的论据?
也就是说,如果子级为零,我应该使用null还是应该使用长度为零的数组?
在我早期的学习过程中,这似乎是一个哲学上的选择。但是我不知道我不知道什么,所以我希望社区能够分享他们基于我没有的经验的见解:这是一个可以为null的列,还是一个可以包含零元素的数组?
暂无答案!
目前还没有任何答案,快来回答吧!