如何在hadoop中通过组合两个文件在hdfs中创建一个文件

mftmpeh8  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(330)

我想在配置单元中创建一个表,将两个表的列组合在一起。
所以我想在hdfs中创建一个文件,包括两个文件的列。

file1: a  b  c are the 3 columns 

file2: x  y  z are the 3 columns 

i want to create a file3: a  b  c  x  y  z  that has 6 columns.

怎么做?
我尝试了许多命令,但它是附加到列的数据,但我想在两个文件中的所有列都出现在一个文件中。
谢谢您。

cwdobuhd

cwdobuhd1#

我想最简单的办法就是 id 列到两个表(您需要一些列来对其执行联接),然后对上的表进行联接 id 列:

CREATE TABLE joined AS 
  SELECT first.id, first.a, first.b, first.c, second.x, second.y, second.z
    FROM first JOIN second ON (first.id = second.id)

相关问题