我们有3个相关的表:PublicationObject、Source、SourceObjectDetails(在CSV中维护);我们执行连接并获得结果集:Join
x1c 0d1x的数据
我们希望为每个表创建JSON文件(并将这些数据保持为非规范化形式),如下所示:
的
我们有500多个出版物对象,每个PO平均有近25个栏目。
所以我们需要为每个PublicationObject创建一个JSON
我们需要使用python或pyspark(在Azure Databricks上)
请分享技巧和解决方案,如何执行此操作
1条答案
按热度按时间nue99wik1#
您可以通过对列进行分组并将其收集为对象列表来使用以下转换。首先,您需要读取CSV文件并执行连接操作。我们将从生成的连接数据开始。
字符串
要获得预期的结果,请使用以下转换查询。
型
要为列表中的每个PublicationObject获取JSON对象,请使用以下代码。
型
输出量:
型