我试图用以下脚本将数据集保存在csv文件中:
with open(data_path+'Furough.csv', 'w',encoding="utf-8") as f0:
df = pd.DataFrame(columns=['title','poem','year'])
for f in onlyfiles:
poem=[]
title=""
year=0
with open(mypath+f,"r",encoding="utf-8") as f1:
for line in f1:
if line.__contains__("TIMESTAMP"):
year=int(line[12:15])
continue
if line.__contains__('TITLE'):
title=line[7:]
if line!="":
poem.append(line)
df = df.append({
'title': title,
'poem':poem,
'year': int(float(year))
}, ignore_index=True)
df.to_csv(f0, index=False,encoding='utf-8-sig')
但结果很混乱,将一些未知字符写入csv文件而不是波斯语字符:有人能帮我吗?
我想在csv中写入所有这些文件:
我想写的其中一个例子:
[V_START] بر پردههای درهم امیال سرکشم [HEM]
نقش عجیب چهرۀ یک ناشناس بود [V_END]
[V_START] نقشی ز چهرهای که چو میجستمش به شوق [HEM]
پیوسته میرمید و بمن رخ نمینمود [V_END]
[V_START] یک شب نگاه خستۀ مردی به روی من [HEM]
لغزید و سست گشت و همان جا خموش ماند [V_END]
[V_START] تا خواستم که بگسلم این رشتۀ نگاه [HEM]
قلبم تپید و باز مرا سوی او کشاند [V_END]
但结果是:
2条答案
按热度按时间s71maibg1#
要添加到cimbali的答案中,添加utf8 bom的另一种方法是使用编码“utf-8-sig”而不是“utf-8”,因为它会自动为您处理。
此问题中有更多信息:无法使用python将阿拉伯语解码的unicode保存到csv文件
pzfprimi2#
您的文件可能是正确的,excel正在使用另一种编码打开它。
插入utf-8 bom可能会迫使excel将csv正确识别为utf-8:
否则,请参阅此microsoft帮助页,了解如何在excel中打开utf-8 csv文件而不进行错误转换?
基本上是通过“从文本获取数据”对话框来指定编码。