我想建立一个项目,其中的数据的速度和体积将是非常大的。所以,我必须使用大数据概念来实现它。但我不知道怎么用,在哪里用。通过大量的研究,我确实安装了hadoop和hive,也掌握了hive的基本知识,但不知道如何继续。有谁能告诉我在哪里使用什么技术,使用php好吗?或者我应该使用其他语言吗?任何输入都会有帮助。
zphenhs41#
使用apachephoenix在hbase中运行sql查询。Hive和 Impala 的启动速度非常慢。它不是针对一个网站,而是针对批量作业。ApachePhoenix非常快。但是你不能使用php;使用java。或者使用apache thrift运行java服务器来查询apache phoenix,然后使用php客户端版本的thrift来访问数据。
pn9klfpd2#
配置单元不是数据库。它是hdfs中大数据集上的批处理sql引擎。因为数据太大是主要原因之一,这意味着您不应该将该数据公开给任何web应用程序加载的用户,而不管使用哪种语言—加载查询所需的时间太长。如果您存储的数据是很小的结果集(例如数百mbs-几gbs),那么hadoop可能不是首先存储数据的地方。任何您希望使用配置单元的查询,不要期望它在任何合理的时间段内(至少通话分钟)加载到网站中。我会非常惊讶,如果任何网站使用Hive作为后端。应使用cassandra或hbase向面向用户的应用程序显示数据。至少,您可以使用apachesqoop将配置单元表导出为一种“物化视图”,供mysql/postgres中的用户查看,mysql/postgres拥有完善的php驱动程序。换句话说,启动hive中的大型数据,通过一些提取过程对其进行操作,并将其加载到适当的数据库系统中。spark-thrift-server、drill或prestodb可以设置为更具交互性的sql查询,但同样,这些应该用于临时查询,而不是将数据快速拉入网站
2条答案
按热度按时间zphenhs41#
使用apachephoenix在hbase中运行sql查询。Hive和 Impala 的启动速度非常慢。它不是针对一个网站,而是针对批量作业。ApachePhoenix非常快。但是你不能使用php;使用java。或者使用apache thrift运行java服务器来查询apache phoenix,然后使用php客户端版本的thrift来访问数据。
pn9klfpd2#
配置单元不是数据库。它是hdfs中大数据集上的批处理sql引擎。
因为数据太大是主要原因之一,这意味着您不应该将该数据公开给任何web应用程序加载的用户,而不管使用哪种语言—加载查询所需的时间太长。如果您存储的数据是很小的结果集(例如数百mbs-几gbs),那么hadoop可能不是首先存储数据的地方。
任何您希望使用配置单元的查询,不要期望它在任何合理的时间段内(至少通话分钟)加载到网站中。我会非常惊讶,如果任何网站使用Hive作为后端。
应使用cassandra或hbase向面向用户的应用程序显示数据。至少,您可以使用apachesqoop将配置单元表导出为一种“物化视图”,供mysql/postgres中的用户查看,mysql/postgres拥有完善的php驱动程序。换句话说,启动hive中的大型数据,通过一些提取过程对其进行操作,并将其加载到适当的数据库系统中。
spark-thrift-server、drill或prestodb可以设置为更具交互性的sql查询,但同样,这些应该用于临时查询,而不是将数据快速拉入网站