描述bug
给定一个单列csv文件(见附件中的一个示例),由于无法确定分隔符而解析失败。
参见
unstructured/unstructured/partition/csv.py
第109行:4096a38
| | defget_delimiter(file_path=None, file=None): |
问题出现的地方。
重现
使用附件中的文件进行解析。
预期行为
它应该成功解析并被视为单列电子表格。
截图
如果适用,请添加截图以帮助解释您的问题。
环境信息
unstructured.io 0.11.8
Python 3.10
附加上下文
这里有一个与此处使用的预期行为相关的16岁Python bug,即sniff
函数:https://bugs.python.org/issue2078
6条答案
按热度按时间8ehkhllq1#
感谢@cwang -我们一有能力就会尽快查看。
hlswsv352#
今天遇到了这个问题。看起来是一个相当简单的修复;只需要在调用
get_delimiter
时捕获错误,并在失败时有条件地跳过传递sep
参数。如果这更可取的话,我很乐意为此创建一个 PR。gab6jxml3#
@cbrendanprice,你能发布完整的堆栈跟踪吗?
yrdbyhpb4#
$x^{1}a_{0b1x}$
nsc4cvqm5#
@cbrendanprice 好的,现在我明白你的意思了。
快速的PR会有帮助。我很想知道Pandas是否能解析单列CSV,所以如果你能证明你的想法会有所帮助。你需要添加一个目前失败的测试用例,我预计这意味着向
/example-docs
添加一个single-column.csv
文件。我认为你提议的是,在
_csv.Error
上我们假设sep=","
。我相信如果sep=None
,Pandas会产生相同的错误。t3irkdon6#
完成!并在我的测试中说明了你在这里提到的所有内容。你是正确的,pandas在传递一个sep为None时会失败,所以我决定简单地省略分隔符altgother,在我测试的结果中,pandas正确/成功地读取了csv。刚刚发布了my pr for this。