因此,我尝试将csv文件加载到beeline中进行一些简单的分析,并开始使用hadoop套件。我使用以下命令
CREATE EXTERNAL TABLE IF NOT EXISTS babies( PseudoID_voorkeur INT, OpnameID INT, Specialisme VARCHAR(32), Opnamecategorie VARCHAR(32), OpnamecategorieOmschrijving VARCHAR(32), OpnametypeID VARCHAR(32), OpnametypeOmschrijving VARCHAR(32), OpnamesubtypeID VARCHAR(32), BehandelcategorieID_OPN VARCHAR(32), BehandelcategorieOmschr_OPN VARCHAR(32), BehandelcodeID VARCHAR(32), BehandelcodeOmschrijving VARCHAR(32), OpnamelocatieID VARCHAR(32), OpnamelocatieOmschrijving VARCHAR(32), AfdelingID_OPN VARCHAR(32), AfdelingOmschrijving_OPN VARCHAR(32), Behandelaar VARCHAR(32), Aanmelder VARCHAR(32), HerkomstID VARCHAR(32), HerkomstOmschrijving VARCHAR(32), Spoed_OPN INT, ScreeningstatusID_OPN VARCHAR(32), ScreeningstatusOmschrijving_OPN VARCHAR(32), OpnamestatusID_OPN INT, OpnamestatusOmschrijving_OPN VARCHAR(32), EersteOpname_OPN INT, GebruikOK_OPN INT, GewensteTermijn_OPN VARCHAR(32), Inschrijfdatum_OPN STRING, Wachtlijstdatum_OPN STRING, UitersteDatum_OPN STRING, GeplandeOpnamedatum_OPN STRING, GeplandeOpnametijd_OPN VARCHAR(32), GeplandeOntslagdatum_OPN STRING, GeplandeOntslagtijd_OPN VARCHAR(32), Oproepdatum_OPN STRING, Opnamedatum_OPN STRING, Opnametijd_OPN VARCHAR(32), Ontslagdatum_OPN STRING, Ontslagtijd_OPN VARCHAR(32), Annuleringsdatum_OPN STRING, Factureringsdatum_OPN STRING, Mutatiedatum_OPN STRING, Mutatietijd_OPN VARCHAR(32), VerwachteOpnameduur_OPN VARCHAR(32), BestemmingID VARCHAR(32), BestemmingOmschrijving VARCHAR(32), PseudoID_voorkeur1 INT, Aanvraagnummer INT, Broncode VARCHAR(32), Labgroep_naam VARCHAR(32), Labgroep_code INT, Afnamedatum STRING, Afnametijd VARCHAR(32), Afdeling VARCHAR(32), Aanvrager VARCHAR(32), Bepaling VARCHAR(32), Bepaling_omschrijving VARCHAR(32), Bepaling_materiaal VARCHAR(32), Uitslag_waarde VARCHAR(32), Uitslag_eenheid VARCHAR(32), Uitslag_grenswaarde_onder DOUBLE, Uitslag_grenswaarde_boven DOUBLE, Uitslag_grenswaarde_vlag VARCHAR(32), Uitslag_status VARCHAR(32), Zenddatum STRING, Zendtijd VARCHAR(32) )ROW FORMAT DELIMITED FIELDS TERMINATED BY "/073" LINES TERMINATED BY '\n' STORED AS TEXTFILE; load data inpath '/user/cloudera/output/clean/neo.csv' overwrite into table babies;
尝试此操作时,我处理了0行,请参见代码被剪切为输出: Loading data to table default.babies Table default.babies stats: [numFiles=1, numRows=0, totalSize=738077097, rawDataSize=0] OK No rows affected (2.564 seconds)
有人知道怎么解决这个问题吗?csv文件用分隔符分隔(其中/073代表行,行以换行符结束
1条答案
按热度按时间yizd12fk1#
如我所见,该文件已经存在于hdfs中,在创建外部表时添加以下内容
位置“/user/cloudera/output/clean/”
在这种情况下,不需要“load data inpath”,您可以直接查询表。