我一直在探索数据湖的概念和三角洲湖。它的一些功能看起来非常有趣。就在项目主页上https://delta.io/ 有一张图显示了delta lake在“您现有的数据湖”上运行,没有提到spark。在其他地方,它表明三角洲湖indeeds运行在spark之上。所以我的问题是,它能独立于spark运行吗?例如,我可以用s3存储桶设置delta-lake,用于Parquet格式的存储、模式验证等,而不必在我的体系结构中使用spark吗?
我一直在探索数据湖的概念和三角洲湖。它的一些功能看起来非常有趣。就在项目主页上https://delta.io/ 有一张图显示了delta lake在“您现有的数据湖”上运行,没有提到spark。在其他地方,它表明三角洲湖indeeds运行在spark之上。所以我的问题是,它能独立于spark运行吗?例如,我可以用s3存储桶设置delta-lake,用于Parquet格式的存储、模式验证等,而不必在我的体系结构中使用spark吗?
2条答案
按热度按时间eqqqjvef1#
热释光;医生没有
delta lake(包括0.8.0)与ApacheSpark紧密集成,因此没有spark就不可能有delta lake。
cig3rfwq2#
你可以注意一下:https://github.com/delta-io/delta-rs
这是早期的,目前是只读的,但随着项目的发展,值得关注。