pandas 使用parse_dates时panda read_csv会降低性能

mspsb9vt  于 2023-03-11  发布在  其他
关注(0)|答案(1)|浏览(94)

我有一个包含58K行时间序列数据的CSV文件,第一列是时间戳,所有的值都是唯一的。
当我执行pd.read_csv("data.csv")时,只需要不到一秒,但是当我执行pd.read_csv("data.csv", parse_dates=[0])时,需要超过30秒,这是解析csv中的时间戳时所期望的性能吗?
我尝试了这里的所有解决方案,我不能改善它:Pandas: slow date conversion
有什么办法可以提高性能吗?如果我告诉Pandas日期时间格式呢?
下面是一个可以使用的repl:https://repl.it/@eparizzi/Pandas-Testing-1

wztqucjr

wztqucjr1#

pyarrow解析器引擎为我提供了一些技巧:

import pandas as pd

data = pd.read_csv("data.csv", parse_dates=[0], engine="pyarrow")

我的日期采用ISO 8601格式,例如:

2023-02-22T15:41:59.0478497+01:00

您需要先执行install pyarrow

相关问题