pandas 使用parse_dates时panda read_csv会降低性能

mspsb9vt 于 2023-03-11 发布在其他

关注(0)|答案(1)|浏览(95)

我有一个包含58K行时间序列数据的CSV文件，第一列是时间戳，所有的值都是唯一的。
当我执行pd.read_csv("data.csv")时，只需要不到一秒，但是当我执行pd.read_csv("data.csv", parse_dates=[0])时，需要超过30秒，这是解析csv中的时间戳时所期望的性能吗？
我尝试了这里的所有解决方案，我不能改善它：Pandas: slow date conversion
有什么办法可以提高性能吗？如果我告诉Pandas日期时间格式呢？
下面是一个可以使用的repl：https://repl.it/@eparizzi/Pandas-Testing-1

pandas

来源：https://stackoverflow.com/questions/60659054/pandas-read-csv-slow-performance-when-using-parse-dates

1条答案

按热度按时间

wztqucjr1#

pyarrow解析器引擎为我提供了一些技巧：

import pandas as pd

data = pd.read_csv("data.csv", parse_dates=[0], engine="pyarrow")

我的日期采用ISO 8601格式，例如：

2023-02-22T15:41:59.0478497+01:00

您需要先执行install pyarrow。

赞(0）回复(0）举报 2023-03-11

我来回答

pandas 使用parse_dates时panda read_csv会降低性能

1条答案

相关问题

热门标签

最新问答