如何使用python在csv文件中保存波斯语文本？

jk9hmnmh 于 2021-09-08 发布在 Java

关注(0)|答案(2)|浏览(457)

我试图用以下脚本将数据集保存在csv文件中：

with open(data_path+'Furough.csv', 'w',encoding="utf-8") as f0:
    df = pd.DataFrame(columns=['title','poem','year'])
    for f in onlyfiles:
        poem=[]
        title=""
        year=0
        with open(mypath+f,"r",encoding="utf-8") as f1:
            for line in f1:
                if line.__contains__("TIMESTAMP"):
                    year=int(line[12:15])
                    continue
                if line.__contains__('TITLE'):
                    title=line[7:]
                if line!="":
                    poem.append(line)
            df = df.append({
                            'title': title,
                            'poem':poem,
                            'year': int(float(year))
                            }, ignore_index=True)
            df.to_csv(f0, index=False,encoding='utf-8-sig')

但结果很混乱，将一些未知字符写入csv文件而不是波斯语字符：有人能帮我吗？
我想在csv中写入所有这些文件：

我想写的其中一个例子：

[V_START] بر پرده‌های درهم امیال سرکشم [HEM]
نقش عجیب چهرۀ یک ناشناس بود [V_END]
[V_START] نقشی ز چهره‌ای که چو می‌جستمش به شوق [HEM]
پیوسته می‌رمید و بمن رخ نمی‌نمود [V_END]
[V_START] یک شب نگاه خستۀ مردی به روی من [HEM]
لغزید و سست گشت و همان ‌جا خموش ماند [V_END]
[V_START] تا خواستم که بگسلم این رشتۀ نگاه [HEM]
قلبم تپید و باز مرا سوی او کشاند [V_END]

但结果是：

python pandas nlp farsi

来源：https://stackoverflow.com/questions/68313567/how-to-save-farsi-text-in-csv-file-using-python

2条答案

按热度按时间

s71maibg1#

要添加到cimbali的答案中，添加utf8 bom的另一种方法是使用编码“utf-8-sig”而不是“utf-8”，因为它会自动为您处理。
此问题中有更多信息：无法使用python将阿拉伯语解码的unicode保存到csv文件

赞(0）回复(0）举报 2021-09-08

pzfprimi2#

您的文件可能是正确的，excel正在使用另一种编码打开它。
插入utf-8 bom可能会迫使excel将csv正确识别为utf-8：

import codecs
with open(data_path+'Furough.csv', 'w',encoding="utf-8") as f0:
    f0.write(codecs.BOM_UTF8)
    # rest of your code

否则，请参阅此microsoft帮助页，了解如何在excel中打开utf-8 csv文件而不进行错误转换？
基本上是通过“从文本获取数据”对话框来指定编码。

赞(0）回复(0）举报 2021-09-08

我来回答

如何使用python在csv文件中保存波斯语文本？

2条答案

相关问题

热门标签

最新问答