im使用cloudera quickstart vm 5.1.0-1
我试图通过hue在hadoop中加载我的3gbcsv,到目前为止我尝试的是:-将csv加载到hdfs中,特别是加载到位于/user/hive/datasets的名为datasets的文件夹中-使用metastore管理器将其加载到默认db中
一切工作正常意味着我设法加载正确的列。主要问题是,当我使用impala查询表时,会启动以下查询:
显示表格统计新表格
我意识到大小只有64MB,而不是csv的实际大小应该是3gb。
另外,如果我通过 Impala 计算(*),行数只有70000,而实际的700万。
任何帮助都将不胜感激。
提前谢谢。
3条答案
按热度按时间eqqqjvef1#
导入头大于64mb的文件时发生此错误(hue-2501)。
彼得的解决方法是好的,它是固定在色调3.8和自cdh5.3.2。
g52tjvyc2#
我也有同样的问题。这是hue如何通过web界面导入文件的问题,web界面有64mb的限制。
我一直在使用hivecli和-f标志导入带有ddl代码的文本文件的大型数据集。
例子:
hive -f beer_data_loader.hql
啤酒数据加载器.hql:yh2wf1be3#
好像是个色盲。找到了一个解决方法。如果在创建表时选中“从文件导入数据”复选框,文件将被截断。如果不选中该选项,将创建一个空表。然后在metastore管理器中选择新创建的表,并使用actions菜单中的import data选项填充它。这将填充所有行。