Tensorflow TFDV 不 适用 于 特定 NaN 值

nkoocmlb  于 2022-11-16  发布在  其他
关注(0)|答案(1)|浏览(131)

我正在使用Tensorflow数据验证从数据中生成统计数据,并推断出要输入TFX的模式。
我没有找到任何选项来指定NaN值,例如,在Pandas中有一个字段“na_values”,在那里可以指定在阅读数据时哪个值将被认为是NaN。
我已经查看了整个TFDV文档,但没有找到它。

tfdv.generate_statistics_from_csv(
    data_location,
    column_names=None,
    delimiter=',',
    output_path=None,
    stats_options=options.StatsOptions(),
    pipeline_options=None
)

选项.StatsOptions()是用于生成统计信息的选项,例如sample_count、sample_rate等...
对我来说,读取数据处理缺失值并将数据保存为Csv或TFRecord并在导入TFDV后生成统计数据是没有意义的。

sshcrbum

sshcrbum1#

在TFDV 0.13.0中,您可以使用tfdv.generate_statistics_from_dataframe方法从pandas Dataframe生成统计信息。如果您的数据适合内存,您可以使用pandas.read_csv方法读取CSV文件(通过指定na_values),然后使用上述方法生成统计信息。

相关问题