我正在使用象鸟解析pig中的嵌套json。我想存储一个示例,其中采样概率取决于解析的json中二进制属性“c”的值。进行条件抽样的一种方法是根据“c”的值拆分关系,然后对两个子关系应用sample操作符,每个子关系都有不同的抽样概率。有没有一种更直接、更有效的方法可以一次性完成这一任务?如果没有,建议使用什么方法拆分子关系,然后再将子关系组合在一起?我操作的是大文件,所以效率是一个问题。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!