我使用一个名为DataGenerator
的类,它返回一个元组(data_array, label_array)
,代码如下:
from tensorflow.keras.utils import Sequence
class DataGenerator(Sequence):
"""
path_data: the path of the csv files
"""
...
此类从.csv
文件列表中使用,如下图所示:
每个文件都包含一列,如下所示:
0.44
0.45
0.42
0.22
0.05
0.05
0.05
0.05
0.11
0.11
0.05
0.05
0.05
0.05
0.05
0.05
但是这些文件非常庞大,每个文件都代表每个示例的数据。
问题是,我不知道如何通过tfx.v1.components.CsvExampleGen
接收数据,以便在tfx
管道中使用它...
- 是否可以使用
tfx
接收数据,或者我应该考虑另一种替代方法? - 我可以使用CsvExampleGen从目录中的一组文件中获取吗?
1条答案
按热度按时间yi0zb3m41#
数据摄取,包括从原始格式阅读数据并将其格式化为适合ML的二进制格式(例如TFRecord)。TFX提供了一个名为ExampleGen的标准组件,负责从不同的数据源生成训练示例。
tfx.v1.components.CsvExampleGen组件接受
input_base
参数,该参数预期包含CSV文件的外部目录。您甚至可以为ExampleGen自定义输入和输出train/eval拆分比率,如下所示。希望这个能帮上忙谢谢!