我已经创建了一个外部表,其中包含200gb数据的文本文件。在这种情况下,可能会有重复记录,在这种情况下,我必须抛出异常。我猜使用groupby可以消除重复,但在我的例子中,当存在重复记录时,我不得不中止这个过程。请告诉我,如何处理这个问题?有没有可能用pythonudf或者在hive(版本0.13)中我们可以解决这个问题?提前谢谢。
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!