Arrow包读取的2个数据有没有办法合并!但是,我希望保持箭头格式完整。可能有一种方法可以像下面这样做,但它花费了太多的时间来构建数据,然后应用rbindlist函数,因此我的问题。
install.packages("arrow")
library("arrow")
a <- arrow::open_dataset("a.parquet")
b <- arrow::open_dataset("b.parquet")
a1 <- as.data.frame(a)
b1 <- as.data.frame(b)
字符串
如果a、B的大小很大,花费的时间太长。
merge <- rbindlist(list(a1, b1))
型
请有新想法
我期待着一种快速的方法来合并箭头格式的两种数据,或者即使你没有。
1条答案
按热度按时间hk8txs481#
arrow包支持分区,一次阅读多个parquet文件,这可能会达到你想要的效果(请参阅下面关于@r2evans分区的说明)。也就是说,假设数据集具有相同的模式,那么您可以在对
open_dataset
的单个调用中打开多个文件,然后将它们视为单个文件,例如字符串
完整的细节可以在vignette中找到