azure 将数据写入第二代数据湖，以节省功耗

ecbunoof 于 2023-10-22 发布在其他

关注(0)|答案(2)|浏览(120)

如果我们有一些来自营销平台的数据，这些数据以小时为单位，包含行为数据（请将其视为CSV文件中的事件或行）。
我想把它放在第二代数据湖中，目的是让Power BI开发人员能够轻松地消费和使用数据。
作为一名开发人员，我可以做些什么来使这些数据更适合于power bi用户？我应该把东西放在时间部分吗？我应该放弃原始CSV文件，并希望这不是powerbi的性能问题吗？
我这样问是因为我看到了power platform数据流生成的文件，想知道我是否应该做类似的事情？也许已经有C#的Toolking/SDK可以做到这一点。在执行某项任务之前，我应该考虑什么？

Azure

来源：https://stackoverflow.com/questions/62762353/writing-data-to-data-lake-gen2-for-power-bi-consumption

2条答案

按热度按时间

qq24tv8q1#

我必须说，这个问题是非常通用的，它很坚韧提供指导，而不查看数据。既然你在谈论营销数据，我假设它是巨大的，我必须说PBI确实很好地处理了巨大的数据。无论如何，问题是关于我们如何在ADLA Gen 2中保存数据。我建议你可以
集装箱\年\月\日\小时例如 2020\07\12\23
如果可能的话，我可以去
集装箱\年\月\日\小时\毫米例如2020\07\12\23\59
这种方法将使csv文件更小，我认为这总是更好。

赞(0）回复(0）举报 2023-10-22

wj8zmpe12#

有点晚了，问题可能会得到处理，但无论如何，如果有人来找...你问：“在执行某项任务之前，我应该考虑什么？”
如果你不打算提供一个带有数据砖或突触的策展层，那么我想问的主要问题是，数据是否会被导入，或者是否会使用直接查询。
导入然后CSV执行良好，但您可以通过删除任何不需要的列等进行优化。PowerBI在压缩和处理大型数据文件方面做得很好。它不太擅长的一个领域是导入大量较小的csv文件。最好将这些文件合并为单个较大的文件。导入时，CSV的性能优于Parquet。
直接查询，然后我会考虑将CSV转换为Parquet，这比CSV查询性能更好（老实说，甚至不确定直接查询是否可以在CSV上使用？？）但是如果寻找直接查询，我会强烈考虑使用Data Bricks或Synapse来处理连接和聚合以及反规范化的策展层。Fabric现在有一个新的直接查询，在某些情况下性能更好，可以同时使用导入和直接查询，但当前的限制意味着它并不总是适用。

赞(0）回复(0）举报 2023-10-22

我来回答

azure 将数据写入第二代数据湖，以节省功耗

2条答案

相关问题

热门标签

最新问答