如何使用配置单元计算0-1序列的时间长度?

vlju58qv  于 2021-06-26  发布在  Hive
关注(0)|答案(2)|浏览(370)

现在我有了如下数据:

time(string) id(int)

201801051127 0

201801051130 0

201801051132 0

201801051135 1

201801051141 1

201801051145 0

201801051147 0

它有三个不同的部分,我想计算这三部分的时间长度,比如第一个零序,时间长度是5分钟。如果我使用'groupby0和1',第一个零序将与第三个零序合并,这不是我想要的。如何用sql计算这三部分的长度?我的sql代码如下:

SET @id_label:=0;
SELECT id_label,id,TIMESTAMPDIFF(MINUTE,MIN(DATE1),MAX(DATE1)) FROM
(SELECT id, DATE1, id_label FROM (
SELECT id, str_to_date ( TIME,'%Y%m%d%H%i' ) DATE1,
@id_label := IF(@id = id, @id_label, @id_label+1)  id_label,
@id := id
FROM test.t
ORDER BY str_to_date ( TIME,'%Y%m%d%h%i' )
) a)b
GROUP BY id_label,id;

我不知道怎么把它改成Hive代码。

lrpiutwd

lrpiutwd1#

试试这个。

SELECT id, ( max( TO_DATE ( time,'YYYYMMDDHHMI' ) )
- min( TO_DATE ( time,'YYYYMMDDHHMI' ) ) ) *24*60 diff_in_minutes from 
(
select t.*,
row_number()   OVER ( ORDER BY 
                    TO_DATE ( time,'YYYYMMDDHHMI' ) )
- row_number() OVER ( PARTITION BY ID ORDER BY 
                    TO_DATE ( time,'YYYYMMDDHHMI' ) ) seq
FROM Table1 t ORDER BY time
  ) GROUP BY ID,seq
  ORDER BY max(time)
  ;

演示
编辑:这个答案是考虑到op已经标记了 oracle 。现在改为 hive .
作为 hive 的替代品 TO_DATE 在甲骨文中,

unix_timestamp(time, 'yyyyMMddhhmm')

可以使用。

ncecgwcz

ncecgwcz2#

我建议一些转变:
添加一个指示行是否是其组中的第一行(标记为1,否则为空)
计算行前面的此类标志的数目以了解其组号
然后你就可以按新的组号分组了。

oracle版本(原始问题)

with q1 as (
    select to_date(time, 'YYYYMMDDHH24MI') time, id, 
           case id when lag(id) over(order by time) then null else 1 end first_in_group 
    from t
), q2 as (
    select time, id, count(first_in_group) over (order by time) grp_id
    from   q1
)
select   min(id) id, (max(time) - min(time)) * 24 * 60 minutes
from     q2
group by grp_id
order by grp_id

sql小提琴

配置单元版本

不同的数据库引擎使用不同的函数来处理日期/时间值,所以使用hive的 unix_timestamp 处理它返回的秒数:

with q1 as (
    select unix_timestamp(time, 'yyyyMMddHHmm')/60 time, id, 
           case id when lag(id) over(order by time) then null else 1 end first_in_group 
    from t
), q2 as (
    select time, id, count(first_in_group) over (order by time) grp_id
    from   q1
)
select   min(id) id, max(time) - min(time) minutes
from     q2
group by grp_id
order by grp_id

相关问题