带TFX的MLOps:如何摄取数据时,使用序列从Keras?

e5njpo68  于 2022-12-29  发布在  其他
关注(0)|答案(1)|浏览(235)

我使用一个名为DataGenerator的类,它返回一个元组(data_array, label_array),代码如下:

from tensorflow.keras.utils import Sequence

class DataGenerator(Sequence):
    """
    path_data: the path of the csv files
    """
...

此类从.csv文件列表中使用,如下图所示:

每个文件都包含一列,如下所示:

0.44
0.45
0.42
0.22
0.05
0.05
0.05
0.05
0.11
0.11
0.05
0.05
0.05
0.05
0.05
0.05

但是这些文件非常庞大,每个文件都代表每个示例的数据。
问题是,我不知道如何通过tfx.v1.components.CsvExampleGen接收数据,以便在tfx管道中使用它...

  • 是否可以使用tfx接收数据,或者我应该考虑另一种替代方法?
  • 我可以使用CsvExampleGen从目录中的一组文件中获取吗?
yi0zb3m4

yi0zb3m41#

数据摄取,包括从原始格式阅读数据并将其格式化为适合ML的二进制格式(例如TFRecord)。TFX提供了一个名为ExampleGen的标准组件,负责从不同的数据源生成训练示例。
tfx.v1.components.CsvExampleGen组件接受input_base参数,该参数预期包含CSV文件的外部目录。您甚至可以为ExampleGen自定义输入和输出train/eval拆分比率,如下所示。
希望这个能帮上忙谢谢!

相关问题