我尝试使用hive udf udfrowsequence生成自动增量值,但是它为前两个记录生成相同的id。
+-------+----------+---+-------------------+
|rank_id| state| id| datetime|
+-------+----------+---+-------------------+
| 1|New Jersey| 10|2018-03-27 10:00:00|
| 1| Tamil| 25|2018-03-27 11:05:00|
| 2| TamilNa| 25|2018-03-27 11:15:00|
| 3| TamilNadu| 25|2018-03-27 11:25:00|
| 4| Gujarat| 30|2018-03-27 11:00:00|
+-------+----------+---+-------------------+
下面是我用于自动递增的代码。
package org.apache.hadoop.hive.contrib.udf;
import org.apache.hadoop.hive.ql.exec.Description;
import org.apache.hadoop.hive.ql.exec.UDF;
import org.apache.hadoop.hive.ql.udf.UDFType;
import org.apache.hadoop.io.LongWritable;
/**
* UDFRowSequence.
*/
@Description(name = "row_sequence",
value = "_FUNC_() - Returns a generated row sequence number starting from 1")
@UDFType(deterministic = false, stateful = true)
public class UDFRowSequence extends UDF
{
private LongWritable result = new LongWritable();
public UDFRowSequence() {
result.set(0);
}
public LongWritable evaluate() {
result.set(result.get() + 1);
return result;
}
}
有谁能告诉我,我做了什么不对,这是产生相同的id为前两个记录。
1条答案
按热度按时间ih99xse11#
显然,你没有做错什么。但是,似乎不存在这样的解决办法。
得到重复数字的原因主要是因为您的计算发生在两个Map器中(如果您使用的是spark engine,那么是两个执行器)。并且,在每个执行器上,udf将从1开始序列。所以,前两条记录的相同值只是偶然的。根据用于运行查询的Map器的数量,结果可能会有所不同。
您可以通过将执行者的数量限制为1来实现您想要的。从Spark的Angular 来看,我认为你可以使用
repartition(1)
操作。也看看这个线程有一些有用的点。