textract UTF-8编码的文件没有正确解码

vtwuwzda 于 6个月前发布在其他

关注(0)|答案(4)|浏览(107)

我有一个以UTF-8编码的文本文件，其中包含
This is a Text with Umlauts: äöüßÄÖÜ
在Python 3下运行这个文件得到
print(textract.process(commandlineArguments.filename))
同样的情况也出现在包含变音符号的pdf文件中。添加一个 encoding='utf-8' 参数没有任何效果。

textract

来源：https://github.com/deanmalmgren/textract/issues/203

4条答案

按热度按时间

wb1gzix01#

Is it related to textract?
What when you decode your string? https://stackoverflow.com/a/37016987

赞(0）回复(0）举报 6个月前

1yjd4xko2#

这是否与textract有关？
根据以下代码和输出，我认为是的。

import textract
text = textract.process('Umlauttest.txt')
print(text)
print('==================')
with open('Umlauttest.txt', 'r') as file:
	text = file.read()
print(text)

b'This is a text with Umlauts: \xc3\xa4\xc3\xb6\xc3\xbc\xc3\x9f\xc3\x84\xc3\x96\xc3\x9c\nDies ist ein Text mit Umlauten: \xc3\xa4\xc3\xb6\xc3\xbc\xc3\x9f\xc3\x84\xc3\x96\xc3\x9c\n'
==================
This is a text with Umlauts: äöüßÄÖÜ
Dies ist ein Text mit Umlauten: äöüßÄÖÜ

赞(0）回复(0）举报 6个月前

nx7onnlm3#

@workflowsguy 我需要调查一下为什么textract返回的是一个bytes对象而不是一个str对象。在此期间，您可以执行以下操作：

import textract as txt
text = txt.process("Umlauttest.txt")
text = text.decode("utf8")

赞(0）回复(0）举报 6个月前

pgccezyw4#

这是暂停状态吗？

赞(0）回复(0）举报 6个月前

我来回答

textract UTF-8编码的文件没有正确解码

4条答案

相关问题

热门标签

最新问答