使用sparksql连接器从hadoophdfs中读取数据以在超集中可视化?

3zwjbxry  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(318)

在ubuntu服务器上,我设置了divolte collector从网站收集clickstream数据。数据存储在hadoop hdfs(avro文件)中(http://divolte.io/)
然后我想用airbnb超集来可视化数据,它有几个到公共数据库的连接器(感谢sqlalchemy),但没有到hdfs。
由于jdbc配置单元,超集特别有一个到sparksql的连接器(http://airbnb.io/superset/installation.html#database-依赖项)
那么,是否可以使用它来检索hdfs clickstream数据?谢谢

n6lpvg4x

n6lpvg4x1#

为了在sparksql中读取hdfs数据,有两种主要方法取决于您的设置:
读取配置单元中定义的表(从远程元存储读取)(可能不是您的情况)
默认情况下,sparksql(如果没有其他配置)为配置单元创建一个嵌入式元存储,它允许您使用配置单元语法发出ddl和dml语句。你需要一个外部软件包才能工作 com.databricks:spark-avro .

CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");

现在数据应该在表中可用 divolte_data

相关问题