spark流式运动和自定义变换函数

ekqde3dh  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(265)

我是spark的新手,我正在做一个poc:
从动觉流检索数据
对它应用一些变换
将每条记录写入一个rdf文件
稍后将rdf插入图形数据库(例如aws neptune)
在这一点上,我成功地完成了第一步,结果是我得到了一个具有以下结构的对象的数据流(type,date\u time,from\u location,xml\u string)。
在第2步中,我需要遍历每个对象,解析xml\字符串和其他字段,并创建另一个对象,然后使用将其写入单个rdf文件。这意味着这个过程将需要我调用几个函数来将一个对象转换成另一个对象,同时解析xml、读取作为广播变量保存的元数据信息等等。。。
虽然我在网上找到了有关使用udf函数的信息,但它们似乎与结构化流/sparksql有关,并在列上进行操作。我知道有一些方法可以将数据流转换为Dataframe,但我想确保这样做不会使事情过于复杂,更重要的是,这样做以后可能会成为性能瓶颈。
所以简而言之,我的问题是,为了使用自定义转换函数,我是需要使用sparksql,还是应该直接在dstream上使用它?
提前谢谢。
--医学博士。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题