hadoop与mssql报告的可能性

vshtjzan  于 2021-05-30  发布在  Hadoop
关注(0)|答案(2)|浏览(321)

我一直在评估azurehdinsight上的hadoop,为我们的报表应用程序找到一个大数据解决方案。此技术评估的关键部分是,我需要与mssql reporting services集成,因为我们的应用程序已经使用了mssql reporting services。我们非常缺乏开发人员资源,所以我越能把它变成一个工程练习就越好。到目前为止我试过的
使用从mssqlMap到hdinsight上配置单元的odbc连接。
使用hdinsight上的hbase从mssql使用odbc连接。
在azure hdinsight远程桌面上本地使用sparkql
我发现hbase和hive与我们的报告一起使用要慢得多。对于测试数据,我使用了一个有60k行的表,发现mssql上的报告运行不到10秒。我在配置单元查询控制台和odbc连接上运行了查询,发现执行该查询花费了一分钟多的时间。spark速度更快(30秒),但无法从外部连接到它,因为hdinsight群集上的端口无法打开。
大数据和hadoop对我来说都是新鲜事物。我的问题是,我是不是在寻找hadoop来做一些它不是设计用来做的事情,有没有办法让它更快呢?我考虑过缓存结果并定期刷新它们,但这听起来像是一场管理噩梦。Kylin看起来很有前途,但我们已经和windowsazure结了婚,所以我不确定这是一个可行的解决方案。

vof42yt1

vof42yt11#

如果使用spark足够快,您应该考虑使用microsoftsarkodbc驱动程序。我正在使用它,它的性能无法与mssql、其他rdbms或类似elasticsearch的东西相比,但它的工作非常可靠。

kgqe7b3p

kgqe7b3p2#

请参阅有关优化配置单元查询的文档:https://azure.microsoft.com/en-us/documentation/articles/hdinsight-hadoop-optimize-hive-query/
具体来看兽人和使用泰兹。我会创建一个集群,默认情况下有tez,然后以orc格式存储数据。你的查询应该会更有效。

相关问题