如何使用PythonUDF删除配置单元外部表中的重复记录?

fcy6dtqo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(267)

我已经创建了一个外部表,其中包含200gb数据的文本文件。在这种情况下,可能会有重复记录,在这种情况下,我必须抛出异常。
我猜使用groupby可以消除重复,但在我的例子中,当存在重复记录时,我不得不中止这个过程。
请告诉我,如何处理这个问题?有没有可能用pythonudf或者在hive(版本0.13)中我们可以解决这个问题?
提前谢谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题