hadoop实时实现

bprjcwpo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(463)

我想知道hadoop组件是如何实时使用的。
以下是我的问题:
数据导入/导出:
我知道sqoop中可用的选项,但是如果我正确的话,我想知道sqoop是如何在实时实现中使用的(共同点)
1.1放置在shell脚本中并从调度程序/事件触发器调用的sqoop命令。我可以有一个关于这个的实时代码示例,特别是在shell脚本中将参数动态地传递给sqoop(比如表名)。
1.2也可以使用ooozie工作流。有什么例子吗
Pig
pig命令通常是如何实时调用的?通过java程序?如果我正确的话,任何实时代码示例都会非常有帮助。pig通常用于在将暂存数据加载到实际hdfs路径或配置单元表之前对其进行数据质量检查/清理。我们可以在shell脚本中看到pig脚本(在实时项目中)
请纠正我或添加如果我错过了任何
Hive
我们将在何处看到实时场景中的配置单元命令?在shell脚本中还是在javaapi调用中进行报告?
hbase命令在java等语言中通常称为api调用。我说的对吗?
抱歉,问题太多了。我没有看到任何关于如何在实时场景中使用这些组件的文章/博客。
提前谢谢。

lp0sw83n

lp0sw83n1#

您没有看到关于在实时场景中使用这些组件的文章的原因是,这些组件不是面向实时的,而是面向批处理的。
独家新闻:不用于实时-它是面向批处理。我会使用类似flume的东西来接收数据。
Pig,Hive:再一次,不是实时准备好的。两者都是面向批处理的。每个查询/脚本的设置时间可能需要几十秒。你可以用spark streaming(它甚至支持flume)之类的东西来代替这两者。
hbase:它是hdfs之上的nosql数据库。可以实时使用。快速插入。它可以从Spark中使用。
如果您想使用这些系统来帮助实时应用程序,可以考虑类似lambda的体系结构,它有一个批处理层(使用hive、pig等等)和一个速度层(使用流/实时技术)。
当做。

相关问题