你也许可以保持你的Pandas方法,但你必须把你的数据分解成块。 如果您已经将其分解以创建您的 parquet 文件,您应该能够使用相同的方法,一次只在panda中打开您的数据的子集。 如果你需要从你的parquet文件中提取数据,这里有一个关于如何为Pandas Dataframe 创建数据块的链接:How to read a CSV file subset by subset with Pandas? 一旦有了数据块,您就可以model.fit对该数据块调用www.example.com,然后继续下一个数据块并调用model.fit
2条答案
按热度按时间cl25kdpy1#
你也许可以保持你的Pandas方法,但你必须把你的数据分解成块。
如果您已经将其分解以创建您的 parquet 文件,您应该能够使用相同的方法,一次只在panda中打开您的数据的子集。
如果你需要从你的parquet文件中提取数据,这里有一个关于如何为Pandas Dataframe 创建数据块的链接:How to read a CSV file subset by subset with Pandas?
一旦有了数据块,您就可以model.fit对该数据块调用www.example.com,然后继续下一个数据块并调用model.fit
xdnvmnnf2#
您可以查看**TensorFlow I/O**,这是TensorFlow内置支持中不提供的文件系统和文件格式的集合。在这里,您可以找到tfio.IODataset.from_parquet和tfio.IOTensor.from_parquet等功能,以处理 parquet 文件格式。
仅供参考,我认为您还应该考虑使用
feather
,而不是parquet
文件格式AFAIK,parquet
文件加载起来可能非常重,可能会减慢您的培训管道,而feather
相对较快(非常快)。