从单个csv文件在hadoop配置单元中创建星型模式(维度和事实表)

f5emj3cl 于 2021-05-31 发布在 Hadoop

关注(0)|答案(1)|浏览(443)

我对数据仓库、olap和hive完全陌生。我确实有一个csv文件，其中包含有关ebay这样的在线市场的培训数据（请参阅专栏数据）。我的任务是在hive中创建一个星型模式（通过dataanalyticstudio、spark或其他什么）。
我搭建了如下尺寸：

如何创建这些维度表，尤其是为每一行生成一个新的id？我的 SELECT New_Guid(), listing_title, listing_subtitle, listing_type_code, start_price, buy_it_now_price, buy_it_now_listed_flag, qty_available_per_listing From auctions ，这是我在另一个教程中发现的。但是 New_Guid() 在我的数据分析工作室根本不起作用。
谢谢！

hadoop Hive data-warehouse dimensional-modeling star-schema

来源：https://stackoverflow.com/questions/62850454/creating-star-schema-dimensions-and-fact-table-in-hadoop-hive-from-a-single-cs

1条答案

按热度按时间

k75qkfdt1#

假设尺寸没有历史记录，如果尺寸设计好与否：
对于每个所需尺寸：
读取csv并提取相关字段，并将distinct应用于temp\ U表格
使用为每行添加序列号 select (row_number() over()), Col1, Col2, col3, col4 from temp_table &持久到维度表
对于事实表：
读取csv并提取应用于临时表的相关字段
使用为每行添加序列号 select (row_number() over()), Col1, Col2, col3, col4 from temp_table 并存储在另一个临时表2中
用temp\u table\u 2中的适当语句连接到维度，查找/选择给出temp\u table\u 3的序列号
只插入temp\ u table\ 3到fact\ u table的键

赞(0）回复(0）举报 2021-05-31

我来回答

从单个csv文件在hadoop配置单元中创建星型模式(维度和事实表)

1条答案

相关问题

热门标签

最新问答