在hadoop中通过hue加载大型csv只会存储64mb块

q7solyqu  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(362)

im使用cloudera quickstart vm 5.1.0-1
我试图通过hue在hadoop中加载我的3gbcsv,到目前为止我尝试的是:-将csv加载到hdfs中,特别是加载到位于/user/hive/datasets的名为datasets的文件夹中-使用metastore管理器将其加载到默认db中
一切工作正常意味着我设法加载正确的列。主要问题是,当我使用impala查询表时,会启动以下查询:
显示表格统计新表格
我意识到大小只有64MB,而不是csv的实际大小应该是3gb。
另外,如果我通过 Impala 计算(*),行数只有70000,而实际的700万。
任何帮助都将不胜感激。
提前谢谢。

eqqqjvef

eqqqjvef1#

导入头大于64mb的文件时发生此错误(hue-2501)。
彼得的解决方法是好的,它是固定在色调3.8和自cdh5.3.2。

g52tjvyc

g52tjvyc2#

我也有同样的问题。这是hue如何通过web界面导入文件的问题,web界面有64mb的限制。
我一直在使用hivecli和-f标志导入带有ddl代码的文本文件的大型数据集。
例子: hive -f beer_data_loader.hql 啤酒数据加载器.hql:

CREATE DATABASE IF NOT EXISTS beer  
  COMMENT "Beer Advocate Database";

CREATE TABLE IF NOT EXISTS beer.beeradvocate_raw(  
    beer_name           STRING,
    beer_ID             BIGINT,
    beer_brewerID       INT,
    beer_ABV            FLOAT,
    beer_style          STRING,
    review_appearance   FLOAT,
    review_aroma        FLOAT,
    review_palate       FLOAT,
    review_taste        FLOAT,
    review_overall      FLOAT,
    review_time         BIGINT,
    review_profileName  STRING,
    review_text         STRING
    )
 COMMENT "Beer Advocate Data Raw"
 ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '|'
 STORED AS parquet;

CREATE EXTERNAL TABLE IF NOT EXISTS beer.beeradvocate_temp(  
    beer_name           STRING,
    beer_ID             BIGINT,
    beer_brewerID       INT,
    beer_ABV            FLOAT,
    beer_style          STRING,
    review_appearance   FLOAT,
    review_aroma        FLOAT,
    review_palate       FLOAT,
    review_taste        FLOAT,
    review_overall      FLOAT,
    review_time         BIGINT,
    review_profileName  STRING,
    review_text         STRING
    )
 COMMENT "Beer Advocate External Loading Table"
 ROW FORMAT DELIMITED
  FIELDS TERMINATED BY '|'
 LOCATION '/user/name/beeradvocate.data';

INSERT OVERWRITE TABLE beer.beeradvocate_raw SELECT * FROM beer.beeradvocate_temp;  
DROP TABLE beer.beeradvocate_temp;
yh2wf1be

yh2wf1be3#

好像是个色盲。找到了一个解决方法。如果在创建表时选中“从文件导入数据”复选框,文件将被截断。如果不选中该选项,将创建一个空表。然后在metastore管理器中选择新创建的表,并使用actions菜单中的import data选项填充它。这将填充所有行。

相关问题