如何在非阻塞模式下启动spark(使用thrift server)，hive可以更新数据并将数据重新加载到spark中(查看表)

r1wp621o 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(437)

我们确实有问题的表看。我们需要从hive和spark（使用thrift服务器）同时访问表。然而，我们的问题是运行spark和thrift服务器导致一个表查找。
我们运行在一个amazon aws emr集群上，带有hive、spark和thrift server 2。
我们想用一个s3存储来更新配置单元，并定期将这些聚合数据加载到后台的spark中。与此同时，spark一直在使用thrift服务器，并从s3加载相同的数据，对这些数据进行实时聚合。spark不需要对此数据进行写访问。
问题是在配置单元上运行周期性的所有数据加载任务会导致作业冻结。
我们认为元存储可能被spark/thrift服务器锁定，阻止hive更新数据并将数据重新加载到spark中(但不确定）
是否可以在只读非阻塞模式下启动spark和thrift服务器？
什么可能导致问题？有人遇到过类似的问题吗？

hadoop Hive apache-spark amazon-emr

来源：https://stackoverflow.com/questions/34415513/how-to-start-spark-with-thrift-server-in-non-blocking-mode-that-hive-can-updat