我正试图下载一个文件并将其写入磁盘,但不知何故,我迷失在了编码和解码领域。
from urllib.request import urlopen
url = "http://export.arxiv.org/e-print/supr-con/9608001"
with urllib.request.urlopen(url) as response:
data = response.read()
filename = 'test.txt'
file_ = open(filename, 'wb')
file_.write(data)
file_.close()
这里的数据是一个字节字符串。如果我检查文件,我会发现一堆奇怪的字符。我试过了
import chardet
the_encoding = chardet.detect(data)['encoding']
但这一结果一无所获。所以我真的不知道我下载的数据是如何编码的?
如果我只是打字“http://export.arxiv.org/e-print/supr-con/9608001“在浏览器中,它会下载一个我可以用文本编辑器查看的文件,这是一个非常好的.tex文件。
1条答案
按热度按时间pengsaosao1#
应用
python-magic
图书馆。python-magic
是到的python接口libmagic
文件类型标识库。libmagic
通过根据预定义的文件类型列表检查其标题来标识文件类型。此功能通过unix命令向命令行公开file
.注解脚本(适用于windows 10、python 3.8.6):
结果:
.\SO\68307124.py
```file signature b'\x1f\x8b'
gzip compressed data, was "9608001.tex", last modified: Thu Aug 8 04:57:44 1996, max compression, from Unix
{'encoding': 'ascii', 'confidence': 1.0, 'language': ''}