unstructured 无法解析单列csv文件

ig9co6j1  于 2个月前  发布在  其他
关注(0)|答案(6)|浏览(35)

描述bug

给定一个单列csv文件(见附件中的一个示例),由于无法确定分隔符而解析失败。
参见
unstructured/unstructured/partition/csv.py
第109行:4096a38
| | defget_delimiter(file_path=None, file=None): |
问题出现的地方。

重现

使用附件中的文件进行解析。

预期行为

它应该成功解析并被视为单列电子表格。

截图

如果适用,请添加截图以帮助解释您的问题。

环境信息

unstructured.io 0.11.8
Python 3.10

附加上下文

这里有一个与此处使用的预期行为相关的16岁Python bug,即sniff函数:https://bugs.python.org/issue2078

8ehkhllq

8ehkhllq1#

感谢@cwang -我们一有能力就会尽快查看。

hlswsv35

hlswsv352#

今天遇到了这个问题。看起来是一个相当简单的修复;只需要在调用 get_delimiter 时捕获错误,并在失败时有条件地跳过传递 sep 参数。如果这更可取的话,我很乐意为此创建一个 PR。

gab6jxml

gab6jxml3#

@cbrendanprice,你能发布完整的堆栈跟踪吗?

nsc4cvqm

nsc4cvqm5#

@cbrendanprice 好的,现在我明白你的意思了。
快速的PR会有帮助。我很想知道Pandas是否能解析单列CSV,所以如果你能证明你的想法会有所帮助。你需要添加一个目前失败的测试用例,我预计这意味着向/example-docs添加一个single-column.csv文件。
我认为你提议的是,在_csv.Error上我们假设sep=","。我相信如果sep=None,Pandas会产生相同的错误。

t3irkdon

t3irkdon6#

完成!并在我的测试中说明了你在这里提到的所有内容。你是正确的,pandas在传递一个sep为None时会失败,所以我决定简单地省略分隔符altgother,在我测试的结果中,pandas正确/成功地读取了csv。刚刚发布了my pr for this

相关问题