bigdata世界中olap的第一步

ycggw6v2 于 2021-06-02 发布在 Hadoop

关注(0)|答案(3)|浏览(472)

首先，我可能是误传了大数据能力现在。所以，如果我过于乐观，请不要犹豫纠正我。
我通常使用常规的KPI，比如show me:count of new clients where they meeting some complex conditions（join fact tables）for every manager during some month.我通常使用常规的KPI，比如show me:count of new clients where they meeting some comp。
这些请求是动态的，因此无法预测预先计算的数据。我们使用olap和mdx进行动态报告。动态计算的代价是性能。用户通常等待结果超过一分钟。
这里是大数据。我读了一些文章，论坛，文件，导致我含糊不清的结论。bigdata提供了在几秒钟内处理数据的工具，但是它不能很好地适应bi任务，比如join、pre-agregation。在hadoop等概念上没有经典的dwh。
尽管如此，这是一个理论。我找到了Kylin，这让我尝试了一下。我挖得越多，问题就越多。其中一些：
我需要任何编程知识吗（java，scala，python）？
我需要图形工具吗，ssh访问就足够了？
什么硬件要求可以满足我对100-200 GB dbs（以及硬件数量）的需求？
什么是最好的文件系统（ext4），我应该关心吗？
如何从rdbms迁移数据，是否有智能ETL？
我应该先学习和使用什么技术（pig、spark等）？
其实我可能会问错问题，完全误解了这个概念，但希望有一些好的线索。请随意给出您认为对bi和bigdata整合有用的任何建议。
我知道http://kylin.apache.org/docs15/index.html 但是没有后台的支持，我不想尝试。

hadoop olap kylin bigdata

来源：https://stackoverflow.com/questions/39594685/first-steps-for-olap-within-bigdata-world

3条答案

按热度按时间

sbtkgmzw1#

bigdata意味着大量的数据。你可以借助bigdata hadoop处理任何类型的数据。但是olap通常处理较小的数据。利用hive和hbase对hadoop数据集进行olap访问。

赞(0）回复(0）举报 2021-06-02

nue99wik2#

如果您熟悉apachespark，这也是一个好的开始。在activeviam，我们使用spark进行大数据处理，还需要对相同的数据进行交互式olap查询。所以我们做了一个名为sparkube的扩展，它将spark数据集公开为多维立方体。
一旦您的数据集以这种方式公开，您就可以直接在spark上访问所有olap mdx函数，而无需移动数据，无需部署软件，无需配置，直接从excel或tableau访问。
例如，下面是如何将csv文件的内容装载到内存中，并将其作为多维多维多维数据集公开：

// Load a file into a Spark dataset.
// Here we load a CSV file, get the column names from
// the CSV headers, and use Spark automatic type inference.
var ds = spark.read
  .format("csv")
  .option("header","true")
  .option("inferSchema","true")
  .load("path/to/file.csv")

// Import the sparkube library (the sparkube jar must be in the classpath)
import com.activeviam.sparkube._

// Expose the dataset as a multidimensional cube.
// You can start visualizing the cube right away at http://localhost:9090/ui
// or connect from Excel with the XMLA protocol at http://localhost:9090/xmla
new Sparkube().fromDataset(ds)
  .withName("My first cube")
  .expose()

赞(0）回复(0）举报 2021-06-02

5fjcxozz3#

apachekylin是合适的工具，因为您正在寻找多维分析。它提供了连接和聚合的预计算，因此sql/mdx查询可以在几秒钟内返回。
要使用apachekylin，您需要扮演两个角色：管理员和分析师。作为管理员，您需要准备一个hadoop集群并在其上部署kylin。这需要了解hadoop和linux shell。集群的大小和硬件取决于您的数据量。
一旦安装，作为分析师，您可以在kylin中构建模型、多维数据集和运行sql。这需要有关关系模型、olap和sql的知识。无需编程。kylin支持odbc/jdbc接口，您可以连接熟悉的bi工具来可视化kylin中的数据。
通常第一次用户会在hadoop沙盒中尝试apachekylin。这就屏蔽了许多hadoop的复杂性并节省了时间。

赞(0）回复(0）举报 2021-06-02

我来回答

bigdata世界中olap的第一步

3条答案

相关问题

热门标签

最新问答