使用shark查询cassandra需要太多时间

hi3rlvi2  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(483)

我已经建立了一个两(2)节点的cassandra集群,并尝试使用shark执行查询。但查询大约需要10分钟。但是查询工作正常(我用cloudera为我安装了软件)

  1. Time taken: 421.189 seconds
  2. shark>

我试图通过更改/opt/shark/shark/conf/shark-env.sh中的一些参数(增加:spark\ mem和shark\ master\ mem)来调优shark。但运气不好。
非常感谢如果有人能给我任何线索,这种缓慢?
以下是我为涉及的各种软件安装的版本列表:
Cassandra:2.0.8
鲨鱼:shark-0.9.1-bin-cdh4.6.0-fe75a886
Spark:Spark-0.9.0-1.cdh4.6.0.p0.98
hadoop:2.0.0-cdh4.7.0版本
硬件规格:
内存:256gb
cpu:2x intel(r)xeon(r)cpu e5-2680 v2@2.80ghz(共20核,带ht)

8mmmxcuj

8mmmxcuj1#

抱歉,无法评论。这不是一个答案,而是关于这个问题的一些想法。我也遇到过类似的问题,但是在用一个cassandra节点测试本地设置时。对10行表的最简单请求

  1. cqlsh:db> SELECT * FROM table;

在cql shell中不到一秒钟。
但在鲨鱼身上大约需要10秒钟。

  1. shark> USE db; SELECT * FROM table;
  2. ...
  3. Time taken: 11.274 seconds

bin/shark-withinfo shark dir中的可执行文件,它为请求提供了一些信息。也许这会对你的案子有所帮助。在我的例子中,它说大量的任务是为了处理我的请求。所以我猜乔布·施莱杜大部分时间都在吃东西,但我不太懂舒尔

  1. ...
  2. 14/07/09 17:35:19 INFO scheduler.TaskSetManager: Starting task 0.0:255 as TID 255 on executor localhost: localhost (PROCESS_LOCAL)
  3. 14/07/09 17:35:19 INFO scheduler.TaskSetManager: Serialized task 0.0:255 as 5456 bytes in 0 ms
  4. 14/07/09 17:35:19 INFO executor.Executor: Running task ID 255
  5. 14/07/09 17:35:19 INFO scheduler.TaskSetManager: Finished TID 254 in 30 ms on localhost (progress: 255/257)
  6. 14/07/09 17:35:19 INFO scheduler.DAGScheduler: Completed ResultTask(0, 254)
  7. 14/07/09 17:35:19 INFO storage.BlockManager: Found block broadcast_0 locally
  8. 14/07/09 17:35:19 INFO rdd.HadoopRDD: Input split: localhost 9160 org.apache.cassandra.dht.Murmur3Partitioner
  9. 14/07/09 17:35:19 INFO cql.HiveCqlInputFormat: Validators : null
  10. 14/07/09 17:35:19 INFO exec.FileSinkOperator: Initializing Self 260 FS
  11. 14/07/09 17:35:19 INFO exec.FileSinkOperator: Operator 260 FS initialized
  12. 14/07/09 17:35:19 INFO exec.FileSinkOperator: Initialization Done 260 FS
  13. 14/07/09 17:35:19 INFO exec.FileSinkOperator: Final Path: FS file:...
  14. 14/07/09 17:35:19 INFO exec.FileSinkOperator: Writing to temp file: ...
  15. 14/07/09 17:35:19 INFO exec.FileSinkOperator: New Final Path: ...
  16. 14/07/09 17:35:19 INFO executor.Executor: Serialized size of result for 255 is 563
  17. 14/07/09 17:35:19 INFO executor.Executor: Sending result for 255 directly to driver
  18. 14/07/09 17:35:19 INFO executor.Executor: Finished task ID 255
  19. ...
展开查看全部

相关问题