读取带有http源的csv导出时出现的云数据融合问题

zdwk9cvp  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(442)

我第一次尝试云数据融合。我有一个端点,我想使用testwise:
https://waidlife.com/backend/export/index/export.csv?feedid=1&hash=4ebfa063359a73c356913df45b3fbe7f(这是一个商店用品出口)
标题行显示以下结构:

id,title,description,link,image_link,price,availability,condition,google_product_category

配置http源(data fusion hub中提供的插件)时,我设置了以下记录(请注意,我设置了 google_product_category 可为空)

我还将其配置为csv格式并跳过标题行:

现在,如果您查看api端点url(如上所述),就会发现 google_product_category 是空的。我认为这不会是一个问题,因为数据融合的输出模式可以忽略其中的值

2021-02-25 19:38:37,192 - ERROR [Executor task launch worker for task 0:o.a.s.u.Utils@91] - Aborting task
java.lang.RuntimeException: Cannot convert line '"10042","NeoShell Reliance Jacket","Das Filson NeoShell Reliance Jacket besteht aus Polartec  NeoShell  der aktuell atmungsaktivsten und wasserdichtesten Membrane die es gibt. Im Gegensatz zu gewöhnlichem Shell-Material, ist NeoShell  besonders soft und geräuscharm und eignet sich somit auch perfekt für die Jagd. Die Nähte der wasserdichten Reißverschlüsse sind vollständig versiegelt. Die Reißverschlüsse unter den Achseln verhindern, dass sich bei hoher Aktivität Wärme anstaut und sorgen für die richtige Belüftung. Die...","https://www.waidlife.com/regenjacken/neoshell-reliance-jacket","https://www.waidlife.com/media/image/c8/ab/aa/NeoShellRelianceJacketLifestyle2.jpg","366.75 EUR","in stock","new",""' to a record. Reason: 'java.util.NoSuchElementException: null'
    at io.cdap.plugin.http.source.batch.HttpBatchSource.transform(HttpBatchSource.java:109) ~[1614281902851-0/:na]

我尝试了所有可能的配置组合,但就是想不出为什么整个系统都不能成功运行。
这里是整个管道的json导出:https://pastebin.com/0qkvtsvh

ijnw1ujt

ijnw1ujt1#

这是因为有额外的 , 引用字符串中的字符。到目前为止,我们还不支持带有分隔符的带引号字段的csv。如果这只是一个测试输入,我建议您尝试使用没有 , 在里面。支持空值,应按预期工作。
我为此创建了一个bug。

相关问题