hadoop中的数据沿袭报告

xmakbtuz 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(346)

我正在使用pythondjango框架开发elt工具。
在这个工具中，我们可以安排作业并在apacheoozie中发布它。
我需要为每个作业实现数据沿袭报告。一般来说，我已经探讨了wiki中的“什么是数据沿袭”。
我需要帮助-我应该如何实现这个数据沿袭？不使用任何外部工具和apachefalcon。

hadoop python django

来源：https://stackoverflow.com/questions/29800317/data-lineage-report-in-hadoop

1条答案

按热度按时间

e3bfsja21#

因为您使用的是pythondjango框架，并且大部分作业调度都是使用oozie进行的，所以建议使用falcon进行沿袭跟踪。在hadoop生态系统中很容易使用和跟踪沿袭。
但是，如果您不想使用ApacheFalcon，您可以实现任何图形数据库（neo4j或titandb），并使用d3.js绘制图形。为此，您需要以特定模式将沿袭（graph）变量存储在graphdb中。一旦在graphdb中设置了所有内容，就可以很容易地编写d3java脚本来检索它们并绘制图形。
您可以在这里阅读更多关于d3的信息：
http://chimera.labs.oreilly.com/books/1230000000345/index.html

赞(0）回复(0）举报 2021-05-30

我来回答

hadoop中的数据沿袭报告

1条答案

相关问题

热门标签

最新问答