我有大约100万条记录。我想在spark hadoop中管理这些司法判决记录。我的问题是我可以查询spark/hadoop以像全表扫描一样一次获得所有记录吗?或者我可以有效地对例如从800 000到800 050的记录进行分页吗?
我的问题是,我使用elasticsearch进行全文搜索,但如果我想得到800 000到800 050的结果,我不得不使用滚动API,这看起来很慢,因为从0开始,然后采取10 000条记录,然后其他10 000等等。我的目标是得到所有记录,然后“跳”到800 000没有10 000条记录的块。
1条答案
按热度按时间bzzcjhmw1#
Hive或SparkSQL可以用来查询数据集的偏移量范围,是的。但是它们对文本搜索没有帮助。
MongoDB可以做到这两点,因为它还包括Lucene索引,如Elasticsearch。