在ubuntu服务器上,我设置了divolte collector从网站收集clickstream数据。数据存储在hadoop hdfs(avro文件)中(http://divolte.io/)
然后我想用airbnb超集来可视化数据,它有几个到公共数据库的连接器(感谢sqlalchemy),但没有到hdfs。
由于jdbc配置单元,超集特别有一个到sparksql的连接器(http://airbnb.io/superset/installation.html#database-依赖项)
那么,是否可以使用它来检索hdfs clickstream数据?谢谢
1条答案
按热度按时间n6lpvg4x1#
为了在sparksql中读取hdfs数据,有两种主要方法取决于您的设置:
读取配置单元中定义的表(从远程元存储读取)(可能不是您的情况)
默认情况下,sparksql(如果没有其他配置)为配置单元创建一个嵌入式元存储,它允许您使用配置单元语法发出ddl和dml语句。你需要一个外部软件包才能工作
com.databricks:spark-avro
.现在数据应该在表中可用
divolte_data