我需要一个hive示例项目来进行实践如何处理大型数据库表?如何在配置单元中实际实现查询?

kr98yfug  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(181)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

5年前关门了。
改进这个问题
我对hadoop比较熟悉。我想做一个关于Hive的项目。我有Hive的基本知识。但我想知道如何加载大型表并对其运行查询。
请分享任何项目的细节。

fnatzsnv

fnatzsnv1#

ApacheHive™ 数据仓库软件有助于查询和管理驻留在分布式存储中的大型数据集。hive提供了一种机制,可以将结构投影到该数据上,并使用类似sql的语言hiveql查询数据。
看看apachehive网站和最佳实践
看看hivejdbc从java连接的示例代码
更多配置单元教程链接
https://cwiki.apache.org/confluence/display/hive/tutorial
http://hortonworks.com/hadoop-tutorial/using-hive-data-analysis/
http://www.dezyre.com/hadoop-tutorial/hive-tutorial
加载数据的示例。
有多种方法可以将数据加载到配置单元表中。用户可以创建指向hdfs中指定位置的外部表。在这种特殊用法中,用户可以使用hdfs put或copy命令将文件复制到指定位置,并创建一个包含所有相关行格式信息的指向该位置的表。完成后,用户可以转换数据并将其插入到任何其他配置单元表中。
例如,如果文件/tmp/pv\u 2008-06-08.txt包含2008-06-08上提供的以逗号分隔的页面视图,并且需要将其加载到相应分区的页面视图表中,则以下命令序列可以实现此目的:

CREATE EXTERNAL TABLE page_view_stg(viewTime INT, userid BIGINT,
                page_url STRING, referrer_url STRING,
                ip STRING COMMENT 'IP Address of the User',
                country STRING COMMENT 'country of origination')
COMMENT 'This is the staging page view table'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '44' LINES TERMINATED BY '12'
STORED AS TEXTFILE
LOCATION '/user/data/staging/page_view';

hadoop dfs -put /tmp/pv_2008-06-08.txt /user/data/staging/page_view

FROM page_view_stg pvs
INSERT OVERWRITE TABLE page_view PARTITION(dt='2008-06-08', country='US')
SELECT pvs.viewTime, pvs.userid, pvs.page_url, pvs.referrer_url, null, null, pvs.ip
WHERE pvs.country = 'US';

相关问题