hive—spark中Dataframe中每行的随机数

izj3ouym  于 2021-06-28  发布在  Hive
关注(0)|答案(1)|浏览(409)

我正在将配置单元中的两个表读入Dataframe,并希望将唯一的数字与两个Dataframe中的行相关联。数字在Dataframe内和两个Dataframe中都应该是唯一的。
我读到关于使用 row_source() 函数在从配置单元查询时执行,但对于这两个Dataframe,数字不会是唯一的。
请提出解决方案。

fjaof16o

fjaof16o1#

您可以做的一件事是创建一个生成随机数的自定义项,并添加另一个列id,该列id是使用此自定义项创建的,您的自定义项可以用前缀区分列id,
例如,对于dataframe1,它类似于df1::121237814,而对于dataframe2,它类似于df2::65452634827
所以你的自定义项可以有点像这样:

def generateIdForDF1=df1::UUID.randomUUID.hashCode.toLong

另一个也一样!

相关问题