Apache Druid是一个实时分析型数据库,旨在对大型数据集进行快速的查询分析("OLAP"查询)。Druid最常被当做数据库来用以支持实时摄取、高性能查询和高稳定运行的应用场景,同时,Druid也通常被用来助力分析型应用的图形化界面,或者当做需要快速聚合的高并发后端API,Druid最适合应用于面向事件类型的数据。
Druid应用场景:
总的来说,apache druid适合于那些对实时性要求高,待分析的源数据量大的应用业务
环境准备,基于centos7的系统,虚拟机或者阿里云服务,本篇以阿里云服务器为例进行说明
1、官网下载安装包
下载地址:https://downloads.apache.org/druid/ ,根据自己的要求下载特定的版本
2、上传至服务器指定目录并解压文件
解压之后我们进入到bin目录下,在bin目录下,存放的是各自启动脚本,在开发调试阶段,我们可以选择其中的一种类型的脚本进行启动
需要说明的是,不同的启动脚本,对于服务器的CPU配置要求是不一样的,下面列举出其中的部分启动脚本对应的CPU参数,提供参考,
单服务器参考配置
Nano-Quickstart:1个CPU,4GB RAM
启动命令: bin/start-nano-quickstart
配置目录: conf/druid/single-server/nano-quickstart
微型快速入门:4个CPU,16GB RAM
启动命令:bin/start-micro-quickstart
配置目录: conf/druid/single-server/micro-quickstart
小型:8 CPU,64GB RAM(〜i3.2xlarge)
启动命令: bin/start-medium
配置目录:conf/druid/single-server/medium
大型:32 CPU,256GB RAM(〜i3.8xlarge)
启动命令:bin/start-large
配置目录: conf/druid/single-server/large
大型X:64 CPU,512GB RAM(〜i3.16xlarge)
启动命令:bin/start-xlarge
配置目录:conf/druid/single-server/xlarge
我们这里做测试使用选择最低配置即可nano-quickstart
3、启动脚本
4、启动之后,页面访问web-ui
http://106.15.37.246:8888 ,没有其他问题的话,将会出现如下界面
5、数据摄入
apache druid作为数据分析的强大之处的其中一个点就是能比较灵活的支持从外部各种数据源导入外部数据,导入到系统之后进行分析,这里先演示使用安装包中提供的模拟数据进行导入
方式1:命令行加载
bin/post-index-task --file quickstart/tutorial/wikipedia-index.json --url http://localhost:8081
如果显示导入成功,在界面上的query一栏左侧,可以展示出导入成功后的库名称
方式2:界面导入
点击load data
选择第一个
选择local disk 并连接(表示从本地导入,这里也提供了很多其他来源,比如hdfs)
填写导入的文件位置
点击apply,并点击next
继续next
一路next来到下面这个界面时,注意那个 Query granularity 的选项,这里表示摄入的数据支持查询时候按照时间单位查询的最小单位,如天,小时,分钟还是秒
再走一步,来到下面这一步,这里的意思是,druid存储数据时会按照时间单位将数据分块进行存储,即数据块,对大数据中hdfs有一些了解的同学应该容易理解这个点,比如这里我选择按照小时存储
来到下面这里,可以将这个名称修改一下,理解为库的名称
最后点击submit
之后,界面上会出现一条任务,开始将外部的数据进行导入,这里可能需要耐心等待一会儿
看到左侧出现了最后一步我们的库名之后,说明数据导入成功
apache druid能够作为实时数据分析工具的一个强大之处在于,能够对摄入数据进行类似sql的分析,统计,像查询mysql的表一样对数据进行可视化分析,比如我们统计下刚刚摄入进来的数据个数
本篇注意演示了如何快速安装apache druid 以及快速导入本地数据到apache druid的过程,希望对看到的同学有用,本篇到此结束,最后感谢观看!
版权说明 : 本文为转载文章, 版权归原作者所有 版权申明
原文链接 : https://blog.csdn.net/zhangcongyi420/article/details/120402345
内容来源于网络,如有侵权,请联系作者删除!