如何将virtuoso分布式版本链接到hadoop

yacmzcpb 于 2021-05-27 发布在 Hadoop

关注(0)|答案(2)|浏览(705)

我有一个由4个节点组成的集群，我安装了hadoop+spark（graphx）。。。
现在我必须处理一个大的rdf数据集，我的问题是：我能在集群上安装virtuoso来存储这个rdf数据集并能够执行sparql分布式查询吗？
据您所知，我需要一个web端点，以允许用户将其sparql查询。
换句话说：virtuoso是在hadoop集群中工作的好解决方案，并且可以使用spark执行分布式查询吗？

hadoop apache-spark rdf sparql virtuoso

来源：https://stackoverflow.com/questions/59126823/how-to-link-virtuoso-distributed-version-to-hadoop

2条答案

按热度按时间

wqnecbli1#

你想用spark作业从hadoop集群上传rdf数据集吗？如果是这样，您可以使用jdbc和virtuoso的连接。
我偶然发现了一个dzone文档，它涵盖了spark和jdbc，它曾经理解您可以通过它通过sql连接处理sparql查询的能力来应用于virtuoso。
我希望这有帮助，如果没有，我们可以进一步讨论。

赞(0）回复(0）举报 2021-05-27

2cmtqfgy2#

apachespark网站指出sparksql可以用于跨jdbc和json数据源进行查询--
dataframes和sql提供了访问各种数据源的通用方法，包括hive、avro、parquet、orc、json和jdbc。您甚至可以跨这些源连接数据。
virtuoso（开源和企业版）可以将sparql结果作为json序列化来交付，所以这是一个选项。
我们（openlink软件）还为virtuoso提供jdbc驱动程序（同样，开源和企业版），所以这也是一种选择。
我们不是apachesparkMaven，因此除了帮助使用virtuoso jdbc url和/或在json序列化中检索sparql查询结果之外，我们无法提供更多指导。
在另一个方向，virtuoso（企业版；非开源版本）可以用来查询外部odbc数据源，并且hadoop/spark数据源也有odbc驱动程序，所以这也是一个选项。
我们不是apachesparkMaven，所以我们不能为他们的驱动程序工作提供太多指导，但是一旦您在virtuoso主机上有了一个功能性odbc dsn，我们就可以帮助您将virtuoso连接到它并对它进行查询。

赞(0）回复(0）举报 2021-05-27

我来回答

如何将virtuoso分布式版本链接到hadoop

2条答案

相关问题

热门标签

最新问答