我将文本文件加载到配置单元外部表中。该文本文件的分隔符为 / 以区分列。另外,一些列在一列中有新行字符。因此,存储在外部表中的数据不匹配。在我的情况下,唯一的密钥是 row_id 包含如下值 1_234 . rowid 是数字。但是由于文本文件中有新行字符,有些行中有文本 row_id .有没有办法删除配置单元中的那些行,或者如何删除hdfs中文本文件中的新行字符?
/
row_id
1_234
rowid
9jyewag01#
在加载到hive之前,您必须编写一个hadoop(流媒体是一个选项)作业来清理数据。
1条答案
按热度按时间9jyewag01#
在加载到hive之前,您必须编写一个hadoop(流媒体是一个选项)作业来清理数据。