从单个csv文件在hadoop配置单元中创建星型模式(维度和事实表)

f5emj3cl  于 2021-05-31  发布在  Hadoop
关注(0)|答案(1)|浏览(443)

我对数据仓库、olap和hive完全陌生。我确实有一个csv文件,其中包含有关ebay这样的在线市场的培训数据(请参阅专栏数据)。我的任务是在hive中创建一个星型模式(通过dataanalyticstudio、spark或其他什么)。
我搭建了如下尺寸:

如何创建这些维度表,尤其是为每一行生成一个新的id?我的 SELECT New_Guid(), listing_title, listing_subtitle, listing_type_code, start_price, buy_it_now_price, buy_it_now_listed_flag, qty_available_per_listing From auctions ,这是我在另一个教程中发现的。但是 New_Guid() 在我的数据分析工作室根本不起作用。
谢谢!

k75qkfdt

k75qkfdt1#

假设尺寸没有历史记录,如果尺寸设计好与否:
对于每个所需尺寸:
读取csv并提取相关字段,并将distinct应用于temp\ U表格
使用为每行添加序列号 select (row_number() over()), Col1, Col2, col3, col4 from temp_table &持久到维度表
对于事实表:
读取csv并提取应用于临时表的相关字段
使用为每行添加序列号 select (row_number() over()), Col1, Col2, col3, col4 from temp_table 并存储在另一个临时表2中
用temp\u table\u 2中的适当语句连接到维度,查找/选择给出temp\u table\u 3的序列号
只插入temp\ u table\ 3到fact\ u table的键

相关问题