我有以下数据框:
+--------------------------------------+------------+
| user_id | city |
+--------------------------------------+------------+
| 55c3c59d-0163-46a2-b495-bc352a8de883 | Toronto |
| e2ddv22d-4132-c211-4425-9933aa8de454 | Washington |
+--------------------------------------+------------+
我需要通过api调用将一个用户id转换为另一个id。我使用了spark自定义项,如下所示:
spark.udf.register("my_udf", (user_id: String) = {
makeApiCall(user_id);
})
然后调用udf以便它将其转换。
SELECT my_udf(user_id) FROM my_table;
这是可行的,但是我需要限制api调用,因为我可能有一个大的数据集。不幸的是,我没有批处理用户标识的选项,因为api调用每个请求只接受一个用户标识。所以我想做的是节流(例如每分钟发送x个请求)
你知道怎么做吗?
暂无答案!
目前还没有任何答案,快来回答吧!