如何限制sparkapi调用?

6pp0gazn  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(193)

我有以下数据框:

+--------------------------------------+------------+
|               user_id                |    city    | 
+--------------------------------------+------------+
| 55c3c59d-0163-46a2-b495-bc352a8de883 | Toronto    |
| e2ddv22d-4132-c211-4425-9933aa8de454 | Washington |
+--------------------------------------+------------+

我需要通过api调用将一个用户id转换为另一个id。我使用了spark自定义项,如下所示:

spark.udf.register("my_udf", (user_id: String) = {
    makeApiCall(user_id);
})

然后调用udf以便它将其转换。

SELECT my_udf(user_id) FROM my_table;

这是可行的,但是我需要限制api调用,因为我可能有一个大的数据集。不幸的是,我没有批处理用户标识的选项,因为api调用每个请求只接受一个用户标识。所以我想做的是节流(例如每分钟发送x个请求)
你知道怎么做吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题