如何限制sparkapi调用？

6pp0gazn 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(208)

我有以下数据框：

+--------------------------------------+------------+
|               user_id                |    city    | 
+--------------------------------------+------------+
| 55c3c59d-0163-46a2-b495-bc352a8de883 | Toronto    |
| e2ddv22d-4132-c211-4425-9933aa8de454 | Washington |
+--------------------------------------+------------+

我需要通过api调用将一个用户id转换为另一个id。我使用了spark自定义项，如下所示：

spark.udf.register("my_udf", (user_id: String) = {
    makeApiCall(user_id);
})

然后调用udf以便它将其转换。

SELECT my_udf(user_id) FROM my_table;

这是可行的，但是我需要限制api调用，因为我可能有一个大的数据集。不幸的是，我没有批处理用户标识的选项，因为api调用每个请求只接受一个用户标识。所以我想做的是节流（例如每分钟发送x个请求）
你知道怎么做吗？

apache-spark apache-spark-sql rest

来源：https://stackoverflow.com/questions/61831874/how-to-throttle-spark-api-calls

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

如何限制sparkapi调用？

暂无答案！

相关问题

热门标签

最新问答