azure 根据ADF中的记录数拆分json文件

np8igboo 于 2023-04-22 发布在其他

关注(0)|答案(1)|浏览(121)

我正在使用Azure数据工厂中的Copy data activity读取restapi json并将其保存在blob中作为json文件。如果文件中的记录数超过200 k条记录，我希望将文件拆分为多个文件。（例如：一个文件中的最大记录数是200 k）我如何才能实现这个Azure数据工厂复制数据活动。
先谢谢你了！

来源：https://stackoverflow.com/questions/76063912/split-a-json-file-based-on-number-of-records-in-adf

1条答案

按热度按时间

如果接收器是分隔文本，您可以使用复制活动本身将较大的文件拆分为较小的文件。为了做到这一点，在复制活动的接收器设置中，您可以为Max rows per file指定所需的值。

接收器文件将以<sourcefilename>_<000xx>.txt创建。

要使用数据流拆分文件，请执行以下步骤。

1.使用源json数据集进行源转换。
1.然后对每一行进行代理键转换和row_number。设置start value和step value为1。在这个演示中，我创建了一个名为row_num的列作为代理键。

1.然后添加派生列转换并添加一个新列。该列的值为toInteger((row_num-1)/10)。这里row_num是在第二步中创建的代理键列。10表示每个文件中的最大行数应为10。您可以将该值替换为所需的数字。

1.然后再次添加派生列转换以将文件名添加为列。

1.然后使用json数据集添加一个sink转换。在sink设置中，给予Name file as column data作为文件名选项值。将file_name作为列名值。

如果运行包含此数据流的管道，则将大Json文件拆分为最多包含10行的较小文件。

赞(0）回复(0）举报 2023-04-22

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 3个月前
xxl-job 不能和nacos兼容？
回答(3) 发布于 3个月前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 3个月前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 3个月前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 3个月前