使用pig读取混乱的文本文件

mnemlml8  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(244)

我是Pig和大数据的新手。我刚刚遇到一个场景:excel文件中的数据被复制到一个简单的文本文件中,导致混乱。所以现在,我们需要使用pig脚本对文本文件的数据进行过滤/细化。我们能做到吗?如果可以的话,我们怎样才能把数据整理成格式良好的文件呢?
一个样本是,

InvoiceNo   StockCode   Description Quantity    InvoiceDate UnitPrice   CustomerID  Country
536365  85123A  WHITE HANGING HEART T-LIGHT HOLDER  6   2010-12-01 8:26 2.55    17850   United Kingdom
536365  71053   WHITE METAL LANTERN 6   2010-12-01 8:26 3.39    17850   United Kingdom

像这样,我们在文本文件中有多个记录。提前多谢了。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题