如果我们有一些来自营销平台的数据,这些数据以小时为单位,包含行为数据(请将其视为CSV文件中的事件或行)。
我想把它放在第二代数据湖中,目的是让Power BI开发人员能够轻松地消费和使用数据。
作为一名开发人员,我可以做些什么来使这些数据更适合于power bi用户?我应该把东西放在时间部分吗?我应该放弃原始CSV文件,并希望这不是powerbi的性能问题吗?
我这样问是因为我看到了power platform数据流生成的文件,想知道我是否应该做类似的事情?也许已经有C#的Toolking/SDK可以做到这一点。在执行某项任务之前,我应该考虑什么?
2条答案
按热度按时间qq24tv8q1#
我必须说,这个问题是非常通用的,它很坚韧提供指导,而不查看数据。既然你在谈论营销数据,我假设它是巨大的,我必须说PBI确实很好地处理了巨大的数据。无论如何,问题是关于我们如何在ADLA Gen 2中保存数据。我建议你可以
集装箱\年\月\日\小时例如 2020\07\12\23
如果可能的话,我可以去
集装箱\年\月\日\小时\毫米例如2020\07\12\23\59
这种方法将使csv文件更小,我认为这总是更好。
wj8zmpe12#
有点晚了,问题可能会得到处理,但无论如何,如果有人来找...你问:“在执行某项任务之前,我应该考虑什么?”
如果你不打算提供一个带有数据砖或突触的策展层,那么我想问的主要问题是,数据是否会被导入,或者是否会使用直接查询。
导入然后CSV执行良好,但您可以通过删除任何不需要的列等进行优化。PowerBI在压缩和处理大型数据文件方面做得很好。它不太擅长的一个领域是导入大量较小的csv文件。最好将这些文件合并为单个较大的文件。导入时,CSV的性能优于Parquet。
直接查询,然后我会考虑将CSV转换为Parquet,这比CSV查询性能更好(老实说,甚至不确定直接查询是否可以在CSV上使用??)但是如果寻找直接查询,我会强烈考虑使用Data Bricks或Synapse来处理连接和聚合以及反规范化的策展层。Fabric现在有一个新的直接查询,在某些情况下性能更好,可以同时使用导入和直接查询,但当前的限制意味着它并不总是适用。