hadoop—使用ApachePig将数据加载到hbase表时,如何排除csv或文本文件中没有数据(只有空格)的列?

j0pj023g  于 2021-06-01  发布在  Hadoop
关注(0)|答案(1)|浏览(218)

假设我有一个名为customer\u table的表,其中数据为列族,现在我有一个文本文件,如下所示: custno,firstname,lastname,age,profession (这些是列名,不在文本或csv文件中)

1,John,Wright,54,Coach  
2,Luke,,20,Student  
3,Mike,Jordan,26,    
4,William,Jones,21,Teacher

在第2行和第3行中,列的lastname和profession分别没有值。
现在我想要

STORE variable INTO 'hbase://customer_table' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage()

仅为特定行排除那些列(其中没有数据或只有空格)。请告诉我怎么做。

chy5wohz

chy5wohz1#

你可以在foreach中使用嵌套的双条件。。。生成语句。另一种选择是使用自定义项。
作为注解,无论哪种方式,您都将丢失一个模式,因此您的字段将是匿名的,而值将是pig中的bytearrays。我个人从未尝试过将这样的行写入hbase。因此,不知道它们会是什么样子,也不知道您如何访问它们。我希望你这样做有充分的理由。

相关问题