bigdata世界中olap的第一步

ycggw6v2  于 2021-06-02  发布在  Hadoop
关注(0)|答案(3)|浏览(472)

首先,我可能是误传了大数据能力现在。所以,如果我过于乐观,请不要犹豫纠正我。
我通常使用常规的KPI,比如show me:count of new clients where they meeting some complex conditions(join fact tables)for every manager during some month.我通常使用常规的KPI,比如show me:count of new clients where they meeting some comp。
这些请求是动态的,因此无法预测预先计算的数据。我们使用olap和mdx进行动态报告。动态计算的代价是性能。用户通常等待结果超过一分钟。
这里是大数据。我读了一些文章,论坛,文件,导致我含糊不清的结论。bigdata提供了在几秒钟内处理数据的工具,但是它不能很好地适应bi任务,比如join、pre-agregation。在hadoop等概念上没有经典的dwh。
尽管如此,这是一个理论。我找到了Kylin,这让我尝试了一下。我挖得越多,问题就越多。其中一些:
我需要任何编程知识吗(java,scala,python)?
我需要图形工具吗,ssh访问就足够了?
什么硬件要求可以满足我对100-200 GB dbs(以及硬件数量)的需求?
什么是最好的文件系统(ext4),我应该关心吗?
如何从rdbms迁移数据,是否有智能ETL?
我应该先学习和使用什么技术(pig、spark等)?
其实我可能会问错问题,完全误解了这个概念,但希望有一些好的线索。请随意给出您认为对bi和bigdata整合有用的任何建议。
我知道http://kylin.apache.org/docs15/index.html 但是没有后台的支持,我不想尝试。

sbtkgmzw

sbtkgmzw1#

bigdata意味着大量的数据。你可以借助bigdata hadoop处理任何类型的数据。但是olap通常处理较小的数据。利用hive和hbase对hadoop数据集进行olap访问。

nue99wik

nue99wik2#

如果您熟悉apachespark,这也是一个好的开始。在activeviam,我们使用spark进行大数据处理,还需要对相同的数据进行交互式olap查询。所以我们做了一个名为sparkube的扩展,它将spark数据集公开为多维立方体。
一旦您的数据集以这种方式公开,您就可以直接在spark上访问所有olap mdx函数,而无需移动数据,无需部署软件,无需配置,直接从excel或tableau访问。
例如,下面是如何将csv文件的内容装载到内存中,并将其作为多维多维多维数据集公开:

// Load a file into a Spark dataset.
// Here we load a CSV file, get the column names from
// the CSV headers, and use Spark automatic type inference.
var ds = spark.read
  .format("csv")
  .option("header","true")
  .option("inferSchema","true")
  .load("path/to/file.csv")

// Import the sparkube library (the sparkube jar must be in the classpath)
import com.activeviam.sparkube._

// Expose the dataset as a multidimensional cube.
// You can start visualizing the cube right away at http://localhost:9090/ui
// or connect from Excel with the XMLA protocol at http://localhost:9090/xmla
new Sparkube().fromDataset(ds)
  .withName("My first cube")
  .expose()
5fjcxozz

5fjcxozz3#

apachekylin是合适的工具,因为您正在寻找多维分析。它提供了连接和聚合的预计算,因此sql/mdx查询可以在几秒钟内返回。
要使用apachekylin,您需要扮演两个角色:管理员和分析师。作为管理员,您需要准备一个hadoop集群并在其上部署kylin。这需要了解hadoop和linux shell。集群的大小和硬件取决于您的数据量。
一旦安装,作为分析师,您可以在kylin中构建模型、多维数据集和运行sql。这需要有关关系模型、olap和sql的知识。无需编程。kylin支持odbc/jdbc接口,您可以连接熟悉的bi工具来可视化kylin中的数据。
通常第一次用户会在hadoop沙盒中尝试apachekylin。这就屏蔽了许多hadoop的复杂性并节省了时间。

相关问题