ibm bigsheets问题

tpgth1q7 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(389)

我在将文件直接从hdfs（pig脚本输出的文件）和本地硬盘上的原始数据加载到大的工作表时遇到了一些错误。我注意到，每当我加载文件并发出行计数以查看是否所有数据都加载到bigsheets中时，所加载的行数就会减少。我已经检查了文件是否一致和正确的分隔符（/t或逗号分隔的字段）。我的文件大小约为2gb，我使用了*.csv/*.tsv格式。
另外，在某些情况下，当我厌倦了直接从windows操作系统加载文件时，文件有时加载成功，行数与数据中的实际行数匹配，有时行数较少。
甚至有时当一个新文件第一次被使用时，它会给出正确的结果，但是如果我下次执行相同的操作，某些行就会丢失。
请分享你的经验，你的大表，解决任何这样的问题，其中整个数据没有被加载等。提前感谢

hadoop apache-pig biginsights

来源：https://stackoverflow.com/questions/27637256/ibm-bigsheets-issue

1条答案

按热度按时间

f4t66c6m1#

最初加载到bigsheets中的数据只是一个子集。您必须运行工作表才能在完整的数据集上获得它。
http://www-01.ibm.com/support/knowledgecenter/sspt3x_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en

赞(0）回复(0）举报 2021-05-30

我来回答

ibm bigsheets问题

1条答案

相关问题

热门标签

最新问答