hive—spark中Dataframe中每行的随机数

izj3ouym 于 2021-06-28 发布在 Hive

关注(0)|答案(1)|浏览(409)

我正在将配置单元中的两个表读入Dataframe，并希望将唯一的数字与两个Dataframe中的行相关联。数字在Dataframe内和两个Dataframe中都应该是唯一的。
我读到关于使用 row_source() 函数在从配置单元查询时执行，但对于这两个Dataframe，数字不会是唯一的。
请提出解决方案。

Hive apache-spark-sql

来源：https://stackoverflow.com/questions/40058186/random-number-for-each-row-in-dataframe-in-spark

1条答案

按热度按时间

fjaof16o1#

您可以做的一件事是创建一个生成随机数的自定义项，并添加另一个列id，该列id是使用此自定义项创建的，您的自定义项可以用前缀区分列id，
例如，对于dataframe1，它类似于df1:：121237814，而对于dataframe2，它类似于df2:：65452634827
所以你的自定义项可以有点像这样：

def generateIdForDF1=df1::UUID.randomUUID.hashCode.toLong

另一个也一样！

赞(0）回复(0）举报 2021-06-28

我来回答

hive—spark中Dataframe中每行的随机数

1条答案

相关问题

热门标签

最新问答