目前,我正在尝试采用大数据来取代我目前的数据分析平台。我目前的平台非常简单,我的系统从各种上游系统获得了大量结构化csv提要文件,然后,我们将它们作为java对象(即内存中)加载以进行聚合。
我正在寻找使用spark来代替我的java对象层来进行聚合过程。
我知道spark支持从hdfs/文件系统加载文件。因此,hive作为数据仓库似乎不是必须的。但是,我仍然可以先将csv文件加载到配置单元,然后使用spark从配置单元加载数据。
我的问题是,在我的情况下,如果我引入一个hive层,而不是直接将csv文件加载到spark-df,有什么好处。
谢谢。
1条答案
按热度按时间ua4mk5z41#
您可以随时使用表查看和感受数据。
可以使用hiveql执行临时查询/聚合。
当通过spark访问该数据时,不需要单独提及数据的模式。