apachespark与大规模数据处理引擎的结构化和非结构化数据集成

t5zmwmid 于 2021-06-24 发布在 Flink

关注(0)|答案(1)|浏览(370)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗？**通过编辑这篇文章更新这个问题，使它只关注一个问题。

5年前关门了。
改进这个问题
像spark、ApacheFlink这样的数据处理引擎是如何将结构化、半结构化和非结构化数据集成在一起并影响计算的？

apache-spark apache-flink bigdata data-processing data-integration

来源：https://stackoverflow.com/questions/29592818/structured-and-unstructured-data-integration-with-large-scale-data-processing-en

1条答案

按热度按时间

mqxuamgl1#

像flink或spark这样的通用数据处理引擎允许您定义自己的数据类型和函数。
如果您有非结构化或半结构化数据，您的数据类型可以反映这些属性，例如，通过使某些信息可选或使用灵活的数据结构（嵌套类型、列表、Map等）对其进行建模。您的用户定义函数应该知道某些信息可能并不总是存在，并且知道如何处理此类情况。
因此，处理半结构化或非结构化数据并不是免费的。必须明确指定。事实上，这两个系统都将重点放在用户定义的数据和函数上，但最近添加了api以简化结构化数据的处理（flink:table-api，spark:dataframes）。

赞(0）回复(0）举报 2021-06-24

我来回答

apachespark与大规模数据处理引擎的结构化和非结构化数据集成

1条答案

相关问题

热门标签

最新问答