sparksessionextensions-检查来自表的字段

wqsoz72f  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(473)

当人们通过dataframeapi加载数据时,我试图检查spark访问的字段和文件。具体来说,我可以记录如下内容:

"User A", "File1.csv", "cola, colb, colc"
"User A", "File2.csv", "cola, colb, colc"

我一直在尝试使用sparksessionextensions来实现这一点,但我一直在努力寻找有关如何实现这一点的文档和示例。有什么可以推荐的吗?

34gzjxbg

34gzjxbg1#

好吧,最后解决了。需要注入一个自定义优化器规则,然后截获一个logicalrelationplan,这将提供模式信息。从那里我可以匹配“relation”属性并检查它是否是hadoopfsrelation类型,如果是,那么我可以提取根路径和输入文件(以及其他内容)。
现在我只需要解决如何重新编写查询

相关问题