我有以下问题:
我有一个csv文件,在某些行中有错误的值(字符串而不是整数)。为了补救,我将其读入polars并过滤该polrame。
为了能够读取它,我必须设置infer_schema_length = 0
,因为否则读取将失败。这将把每一列都作为字符串读取。我如何重新推断正确的嵌套框架的数据类型/模式?我想尽量避免单独设置每一列,因为有很多。
可惜我不能编辑CSV本身。
ids_df = pl.read_csv(dataset_path, infer_schema_length=0)
filtered_df = ids_df.filter(~(pl.col("Label") == "Label"))
filtered_df.dtypes
[Utf8,
Utf8,
Utf8,
Utf8,
Utf8,
Utf8,
Utf8,
Utf8,
Utf8,
Utf8,
...
字符串
谢谢你的帮忙。
1条答案
按热度按时间7vhp5slm1#
我不认为Polars有这个功能,但我想我找到了一个有效的方法来解决你的问题:
字符串
的数据