我有一个Excel文件,其中包含PDF -嵌入(附件)在它.我正在尝试使用PHPEcel和PHPSpreadsheet来获取数据。我成功地获取图像,但其他对象,如PDF无法访问我的第一次尝试是使用PHP,但如果可能的话,我也可以使用Python
olqngx591#
XLSX是Excel组件的Zip容器,因此我们可以打开zip文件并操作内容。
我们感兴趣的对象在“embeddings”文件夹中,如果只有一个嵌入,很容易提取为oleObject1.bin,所以一行提取,一行启动编辑器或您自定义的python查找和保存。
在该BIN文件中,我们可以在00002240文件中查找PDF标题%PDF-的地址还文件查找其编号@00004794 %%EOF\x0A
%PDF-
%%EOF\x0A
现在使用任何方法,如头部和尾部,拼接出PDF在这种情况下2554字节和保存为BINary.pdf
1条答案
按热度按时间olqngx591#
XLSX是Excel组件的Zip容器,因此我们可以打开zip文件并操作内容。
我们感兴趣的对象在“embeddings”文件夹中,如果只有一个嵌入,很容易提取为oleObject1.bin,所以一行提取,一行启动编辑器或您自定义的python查找和保存。
在该BIN文件中,我们可以在00002240
文件中查找PDF标题
%PDF-
的地址还文件查找其编号@00004794
%%EOF\x0A
现在使用任何方法,如头部和尾部,拼接出PDF在这种情况下2554字节和保存为BINary.pdf