如何将virtuoso分布式版本链接到hadoop

yacmzcpb  于 2021-05-27  发布在  Hadoop
关注(0)|答案(2)|浏览(705)

我有一个由4个节点组成的集群,我安装了hadoop+spark(graphx)。。。
现在我必须处理一个大的rdf数据集,我的问题是:我能在集群上安装virtuoso来存储这个rdf数据集并能够执行sparql分布式查询吗?
据您所知,我需要一个web端点,以允许用户将其sparql查询。
换句话说:virtuoso是在hadoop集群中工作的好解决方案,并且可以使用spark执行分布式查询吗?

wqnecbli

wqnecbli1#

你想用spark作业从hadoop集群上传rdf数据集吗?如果是这样,您可以使用jdbc和virtuoso的连接。
我偶然发现了一个dzone文档,它涵盖了spark和jdbc,它曾经理解您可以通过它通过sql连接处理sparql查询的能力来应用于virtuoso。
我希望这有帮助,如果没有,我们可以进一步讨论。

2cmtqfgy

2cmtqfgy2#

apachespark网站指出sparksql可以用于跨jdbc和json数据源进行查询--
dataframes和sql提供了访问各种数据源的通用方法,包括hive、avro、parquet、orc、json和jdbc。您甚至可以跨这些源连接数据。
virtuoso(开源和企业版)可以将sparql结果作为json序列化来交付,所以这是一个选项。
我们(openlink软件)还为virtuoso提供jdbc驱动程序(同样,开源和企业版),所以这也是一种选择。
我们不是apachesparkMaven,因此除了帮助使用virtuoso jdbc url和/或在json序列化中检索sparql查询结果之外,我们无法提供更多指导。
在另一个方向,virtuoso(企业版;非开源版本)可以用来查询外部odbc数据源,并且hadoop/spark数据源也有odbc驱动程序,所以这也是一个选项。
我们不是apachesparkMaven,所以我们不能为他们的驱动程序工作提供太多指导,但是一旦您在virtuoso主机上有了一个功能性odbc dsn,我们就可以帮助您将virtuoso连接到它并对它进行查询。

相关问题