hive/sql绑定了一些列，其余的列是基于拉的其他列中最低/最高的

4szc88ey 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(492)

我有一个Hive表如下5列

name orderno productcategory amount description
KJFSFKS 1   1   40  D1
KJFSFKS 2   2   50  D2
KJFSFKS 3   2   67  D3
KJFSFKS 4   2   10  D4
KJFSFKS 5   3   2   D5
KJFSFKS 6   3   5   D6
KJFSFKS 7   3   6   D7
KJFSFKS 8   4   8   D8
KJFSFKS 9   5   8   D9
KJFSFKS 10  5   10  D10

基于相同产品类别代码的所需输出，如果productcategory代码跨多行添加金额字段相同，则根据最高订单号选择描述，订单号始终选择最低，输出如下

name    orderno productcategory amount  description
KJFSFKS 1   1   40  D1
KJFSFKS 2   2   127 D4
KJFSFKS 5   3   13  D7
KJFSFKS 8   4   8   D8
KJFSFKS 9   5   18  D10

如上所述，有些字段的顺序不同，有些字段的顺序不同
我用了groupby，但是sum（amount）很好，那么description字段呢，它是基于orderno列的，在我的需求中还有其他列，我应该根据订单号来选择

sql hadoop Hive hiveql

来源：https://stackoverflow.com/questions/45328004/hive-sql-bundling-columns-for-few-columns-rest-of-the-columns-are-pull-based-low

2条答案

按热度按时间

w41d8nur1#

select name, orderno,  productcategory,  amount,   description 
from 
(
select name, orderno, productcategory, 
       sum(amount) over(partition by name, productcategory) amount, 
       first_value(description) over(partition by name, productcategory order by orderno desc) description,
       row_number() over (partition by name, productcategory order by orderno) rn
from  your_table
)s where rn=1; --pick lowest orderno

OK
KJFSFKS 1       1       40      D1
KJFSFKS 2       2       127     D4
KJFSFKS 5       3       13      D7
KJFSFKS 8       4       8       D8
KJFSFKS 9       5       18      D10
Time taken: 12.492 seconds, Fetched: 5 row(s)

赞(0）回复(0）举报 2021-05-29

7xzttuei2#

select      name
           ,min(orderno)    as orderno
           ,productcategory
           ,sum(amount)     as amount
           ,max(named_struct('orderno',orderno,'description',description)).description
from        mytable
group by    name
           ,productcategory
;

赞(0）回复(0）举报 2021-05-29

我来回答

hive/sql绑定了一些列，其余的列是基于拉的其他列中最低/最高的

2条答案

相关问题

热门标签

最新问答