hadoop实时实现

bprjcwpo 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(463)

我想知道hadoop组件是如何实时使用的。
以下是我的问题：
数据导入/导出：
我知道sqoop中可用的选项，但是如果我正确的话，我想知道sqoop是如何在实时实现中使用的（共同点）
1.1放置在shell脚本中并从调度程序/事件触发器调用的sqoop命令。我可以有一个关于这个的实时代码示例，特别是在shell脚本中将参数动态地传递给sqoop（比如表名）。
1.2也可以使用ooozie工作流。有什么例子吗
Pig
pig命令通常是如何实时调用的？通过java程序？如果我正确的话，任何实时代码示例都会非常有帮助。pig通常用于在将暂存数据加载到实际hdfs路径或配置单元表之前对其进行数据质量检查/清理。我们可以在shell脚本中看到pig脚本（在实时项目中）
请纠正我或添加如果我错过了任何
Hive
我们将在何处看到实时场景中的配置单元命令？在shell脚本中还是在javaapi调用中进行报告？
hbase命令在java等语言中通常称为api调用。我说的对吗？
抱歉，问题太多了。我没有看到任何关于如何在实时场景中使用这些组件的文章/博客。
提前谢谢。

hadoop Hive hbase sqoop apache-pig

来源：https://stackoverflow.com/questions/33416664/hadoop-real-time-implementation

1条答案

按热度按时间

lp0sw83n1#

您没有看到关于在实时场景中使用这些组件的文章的原因是，这些组件不是面向实时的，而是面向批处理的。
独家新闻：不用于实时-它是面向批处理。我会使用类似flume的东西来接收数据。
Pig，Hive：再一次，不是实时准备好的。两者都是面向批处理的。每个查询/脚本的设置时间可能需要几十秒。你可以用spark streaming（它甚至支持flume）之类的东西来代替这两者。
hbase：它是hdfs之上的nosql数据库。可以实时使用。快速插入。它可以从Spark中使用。
如果您想使用这些系统来帮助实时应用程序，可以考虑类似lambda的体系结构，它有一个批处理层（使用hive、pig等等）和一个速度层（使用流/实时技术）。
当做。

赞(0）回复(0）举报 2021-05-29

我来回答

hadoop实时实现

1条答案

相关问题

热门标签

最新问答