我有一个包含58K行时间序列数据的CSV文件,第一列是时间戳,所有的值都是唯一的。
当我执行pd.read_csv("data.csv")
时,只需要不到一秒,但是当我执行pd.read_csv("data.csv", parse_dates=[0])
时,需要超过30秒,这是解析csv中的时间戳时所期望的性能吗?
我尝试了这里的所有解决方案,我不能改善它:Pandas: slow date conversion
有什么办法可以提高性能吗?如果我告诉Pandas日期时间格式呢?
下面是一个可以使用的repl:https://repl.it/@eparizzi/Pandas-Testing-1
1条答案
按热度按时间wztqucjr1#
pyarrow
解析器引擎为我提供了一些技巧:我的日期采用ISO 8601格式,例如:
您需要先执行install
pyarrow
。