例如hadoop/spark中的全表

falq053o 于 2022-11-01 发布在 Hadoop

关注(0)|答案(1)|浏览(154)

我有大约100万条记录。我想在spark hadoop中管理这些司法判决记录。我的问题是我可以查询spark/hadoop以像全表扫描一样一次获得所有记录吗？或者我可以有效地对例如从800 000到800 050的记录进行分页吗？
我的问题是，我使用elasticsearch进行全文搜索，但如果我想得到800 000到800 050的结果，我不得不使用滚动API，这看起来很慢，因为从0开始，然后采取10 000条记录，然后其他10 000等等。我的目标是得到所有记录，然后“跳”到800 000没有10 000条记录的块。

hadoop

来源：https://stackoverflow.com/questions/74243050/like-full-table-in-hadoop-spark