此问题已在此处有答案:
Pandas.read_csv() with special characters (accents) in column names �(4个答案)
关闭27天前。
我有一个文件,里面有一些我认为来自欧洲和拉丁美洲的特殊人物。我做了pd.read_csv(“file.csv”,encoding ='iso 8859')它读取了一些特殊字符。但是像“Üs”这样的字符仍然是“ís”,“Ärz”是“írz”。有很多这样的字符。你知道用什么来编码吗?我用的是iso 8859,iso 8859 -1,iso 8859 -15。Latin-1、UTF8、UTF16。
2条答案
按热度按时间6l7fqoea1#
您可以在Pandas中尝试不同的编码:
rur96b6h2#
首先,了解一下文件编码的一般背景知识会很有帮助; this是一个很好的资源,也是官方的Python文档。首先,准确地知道你的文件被编码为什么是有帮助的,而不是试图以不同的方式读取它。
Pandas在docs中也有对
read_csv
的编码解释--值得注意的是,默认值是utf-8
。如果你已经用尽了这些方法,有时候在用标准编码(如默认值)阅读数据后,应用一个来自“fixer”库(如this)的函数会更简单。