使用sparksql连接器从hadoophdfs中读取数据以在超集中可视化？

3zwjbxry 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(318)

在ubuntu服务器上，我设置了divolte collector从网站收集clickstream数据。数据存储在hadoop hdfs（avro文件）中(http://divolte.io/)
然后我想用airbnb超集来可视化数据，它有几个到公共数据库的连接器（感谢sqlalchemy），但没有到hdfs。
由于jdbc配置单元，超集特别有一个到sparksql的连接器(http://airbnb.io/superset/installation.html#database-依赖项）
那么，是否可以使用它来检索hdfs clickstream数据？谢谢

hadoop Hive hdfs apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/43954729/read-data-from-hadoop-hdfs-with-sparksql-connector-to-visualize-it-in-superset

1条答案

按热度按时间

n6lpvg4x1#

为了在sparksql中读取hdfs数据，有两种主要方法取决于您的设置：
读取配置单元中定义的表（从远程元存储读取）（可能不是您的情况）
默认情况下，sparksql（如果没有其他配置）为配置单元创建一个嵌入式元存储，它允许您使用配置单元语法发出ddl和dml语句。你需要一个外部软件包才能工作 com.databricks:spark-avro .

CREATE TEMPORARY TABLE divolte_data
USING com.databricks.spark.avro
OPTIONS (path "path/to/divolte/avro");

现在数据应该在表中可用 divolte_data

赞(0）回复(0）举报 2021-06-02

我来回答

使用sparksql连接器从hadoophdfs中读取数据以在超集中可视化？

1条答案

相关问题

热门标签

最新问答