我正在考虑使用azure中的虚拟化环境为大数据分析建立hadoop集群。由于数据量非常大,我正在考虑将数据存储在辅助存储中,如azuredatalakestore和hadoop集群存储将充当主存储。我想知道,如何配置它,以便在创建配置单元表和分区时,部分数据可以驻留在主存储中,其余数据可以驻留在辅助存储中?谢谢,马杜
fkaflof61#
我不知道hadoop和hive,但是你可以结合azure数据湖存储(adls)和azure sql数据仓库(adw),即使用adw中的polybase在adls中的“冷”数据上创建一个外部表,并为“热”数据创建一个内部表。adw的优点是你可以暂停它。(可选)在顶部创建视图以组合外部表和内部表。
mwecs4sa2#
默认情况下,不能将文件系统与配置单元表混合使用。对于数据库/表定义,配置单元元存储区仅包含一个文件系统位置。您可以尝试使用waggle dance来设置联合配置单元解决方案,但这可能比简单地允许配置单元数据存在于azure中要费事得多
2条答案
按热度按时间fkaflof61#
我不知道hadoop和hive,但是你可以结合azure数据湖存储(adls)和azure sql数据仓库(adw),即使用adw中的polybase在adls中的“冷”数据上创建一个外部表,并为“热”数据创建一个内部表。adw的优点是你可以暂停它。
(可选)在顶部创建视图以组合外部表和内部表。
mwecs4sa2#
默认情况下,不能将文件系统与配置单元表混合使用。对于数据库/表定义,配置单元元存储区仅包含一个文件系统位置。
您可以尝试使用waggle dance来设置联合配置单元解决方案,但这可能比简单地允许配置单元数据存在于azure中要费事得多