hadoop删除输入文件中不必要的\n

6yjfywim 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(343)

我有一个大的输入文件，值是用管道分隔的。一行有20个值。在第19个管道之后，如果出现新行字符，则为记录。
但是我的输入文件不仅在19个管道之后\n而且在其他值中。采样线看起来像这样。。。
101101 |这是我的样本| 12547 |样本\nxyz |……（第19管道）|记录结束\n
我是hadoop新手，不知道如何根据这个条件划分行来创建键值对。
另一个相关的问题是，输入拆分发生在客户端，如果我必须在客户端（一台机器）有条件地拆分输入文件，那么考虑到大文件，速度会不会很慢？请帮忙。

hadoop split Input

来源：https://stackoverflow.com/questions/25125641/hadoop-remove-unnecessary-n-in-the-input-files

1条答案

按热度按时间

在配置单元中，空列值表示为“\n”，这是配置单元的默认行为。这样做是为了区分null和“null”（字符串null）。
如果您不想\n出现在导出中，可以使用合并自定义项。
您的查询大致如下所示

SELECT
   COALESCE (my_column, '') AS my_column
FROM
   my_table

赞(0）回复(0）举报 2021-06-04

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 6个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 6个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 6个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 6个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 6个月前