我在将文件直接从hdfs(pig脚本输出的文件)和本地硬盘上的原始数据加载到大的工作表时遇到了一些错误。我注意到,每当我加载文件并发出行计数以查看是否所有数据都加载到bigsheets中时,所加载的行数就会减少。我已经检查了文件是否一致和正确的分隔符(/t或逗号分隔的字段)。我的文件大小约为2gb,我使用了*.csv/*.tsv格式。
另外,在某些情况下,当我厌倦了直接从windows操作系统加载文件时,文件有时加载成功,行数与数据中的实际行数匹配,有时行数较少。
甚至有时当一个新文件第一次被使用时,它会给出正确的结果,但是如果我下次执行相同的操作,某些行就会丢失。
请分享你的经验,你的大表,解决任何这样的问题,其中整个数据没有被加载等。提前感谢
1条答案
按热度按时间f4t66c6m1#
最初加载到bigsheets中的数据只是一个子集。您必须运行工作表才能在完整的数据集上获得它。
http://www-01.ibm.com/support/knowledgecenter/sspt3x_3.0.0/com.ibm.swg.im.infosphere.biginsights.analyze.doc/doc/t0057547.html?lang=en